深層ネットワーク訓練のためのスパース通信【JST・京大機械翻訳】

Eghlidi Negar Foroutan; Jaggi Martin

プレプリント

J-GLOBAL ID：202202205224232816 整理番号：22P0192457

深層ネットワーク訓練のためのスパース通信【JST・京大機械翻訳】

Sparse Communication for Training Deep Networks

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (2件)： ,
資料名：
発行年： 2020年09月19日プレプリントサーバーでの情報更新日： 2020年09月19日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

同期確率勾配降下(SGD)は,深層学習モデルの分散型訓練に使用される最も一般的な方法である。このアルゴリズムでは,各労働者は,その局所勾配を他者と共有し,全ての労働者の平均勾配を用いてパラメータを更新する。分散訓練は計算時間を低減するが,勾配交換に関連した通信オーバヘッドはアルゴリズムに対するスケーラビリティボトルネックを形成する。伝達される必要がある勾配の数を減らすために提案された多くの圧縮技術がある。しかし,勾配を圧縮することは,この問題に別のオーバヘッドを導入する。本研究では,いくつかの圧縮方式を研究し,3つの重要パラメータが性能にどのように影響するかを同定した。また,標準SGDに近い性能を保ちながら,通信を低減するための,性能を増加させ,簡単なスパース化方式,ランダムブロックスパース化を導入する方法に関する一連の洞察も提供した。【JST・京大機械翻訳】

, , , , , , , ,
, , , , 【Automatic Indexing@JST】

人工知能

前のページに戻る