iRDMA:分散型深層学習システムにおけるRDMA(遠隔直接メモリアクセス)の効率的な使用【Powered by NICT】

Ren Yufei; Wu Xingbo; Zhang Li; Wang Yandong; Zhang Wei; Wang Zijun; Hack Michel; Jiang Song

文献

J-GLOBAL ID：201802224596877310 整理番号：18A0517902

iRDMA:分散型深層学習システムにおけるRDMA(遠隔直接メモリアクセス)の効率的な使用【Powered by NICT】

iRDMA: Efficient Use of RDMA in Distributed Deep Learning Systems

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=18A0517902&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=18A0517902&from=J-GLOBAL&jstjournalNo=W2441A") }}

著者 (8件)： , , , , , , ,
資料名：
巻： 2017 号： HPCC/SmartCity/DSS ページ： 231-238 発行年： 2017年
JST資料番号： W2441A 資料種別：会議録 (C)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

分散深層学習システムは,ユーザ時間制約の下での入力データの大きな体積とのモデル訓練における通信帯域幅に厳しい要求を課している。通信は,地球訓練したモデルを維持するための訓練データとパラメータサーバのための作業者ノードのクラスタ間で主に起こる。高速収束のために従事者ノードとパラメータサーバは迅速に更新を放送と陳腐を最小化するパラメータの十億交換を頻繁にしなければならない。帯域幅オンデマンド計算における専用GPUの導入でも高くなった。RDMAを利用できるネットワークは十分に高い帯域幅を提供する大きな可能性を持っているが,MPIのような,TCP/IPまたは特定のプログラミングモデルにその現在の使用は帯域幅ボトルネックを破壊するその能力を制限している。本研究では,iRDMA,GPUとCPUベース訓練を支援する高速ネットワーク環境のための最適化されたRDMAベースパラメータサーバアーキテクチャを提案した。天然非同期RDMA動詞を利用するネットワークライン速度を達成するために,作業者とパラメータサーバ両側に通信処理コストを最小化した。iRDMAは負荷分散およびフォールトトレランスの便利な担体としてその使いやすさのためのPOSIX互換ファイルAPIとしてパラメータサーバシステムを明らかにした。IBMの深層学習プラットフォームでiRDMAを実装した。実験結果は,著者らの設計は,画像認識と言語分類を含む深い学習応用は分散コンピューティング資源を用いることにより,収束速度と訓練精度加速度にほぼ直線的改善を達成するのを助けることができることを示した。システムの観点から,iRDMAは効率的に分散訓練プロセスの中でモデルを同期させるための高速ネットワークの約95%ネットワーク帯域幅を利用することができる。Copyright 2018 The Institute of Electrical and Electronics Engineers, Inc. All Rights reserved. Translated from English into Japanese by JST【Powered by NICT】

, , , , , , , , , , ,
, , , 【Automatic Indexing@JST】

計算機網

前のページに戻る