抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
同期確率勾配降下(SGD)は,深層学習モデルの分散型訓練に使用される最も一般的な方法である。このアルゴリズムでは,各労働者は,その局所勾配を他者と共有し,全ての労働者の平均勾配を用いてパラメータを更新する。分散訓練は計算時間を低減するが,勾配交換に関連した通信オーバヘッドはアルゴリズムに対するスケーラビリティボトルネックを形成する。伝達される必要がある勾配の数を減らすために提案された多くの圧縮技術がある。しかし,勾配を圧縮することは,この問題に別のオーバヘッドを導入する。本研究では,いくつかの圧縮方式を研究し,3つの重要パラメータが性能にどのように影響するかを同定した。また,標準SGDに近い性能を保ちながら,通信を低減するための,性能を増加させ,簡単なスパース化方式,ランダムブロックスパース化を導入する方法に関する一連の洞察も提供した。【JST・京大機械翻訳】