大規模動的予歪モデルの高速MoEモデリングと最適化訓練【JST・京大機械翻訳】

He Jiaao; Zhai Jidong; Antunes Tiago; Wang Haojie; Luo Fuwen; Shi Shangfeng; Li Qin

文献

J-GLOBAL ID：202202277644265940 整理番号：22A1062868

大規模動的予歪モデルの高速MoEモデリングと最適化訓練【JST・京大機械翻訳】

FasterMoE modeling and optimizing training of large-scale dynamic pre-trained models

出版者サイト複写サービスで全文入手
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=22A1062868&from=J-GLOBAL&jstjournalNo=D0698C") }}

著者 (7件)： , , , , , ,
資料名：
号： PPoPP ’22 ページ： 120-134 発行年： 2022年
JST資料番号： D0698C 資料種別：会議録 (C)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

深層学習における現在の傾向は,それらの精度を上げる目的で,モデルを極端に大きいサイズにスケールすることである。Expert-of-Expert(MoE)は,trillion-scaleを超えるパラメータを持つモデルの訓練を可能にする最も一般的な事前訓練モデルである。専門家の動的活性化,すなわち,あるドメインに特殊化した浅い層のおかげで,それはより大きなモデルのスパース訓練を可能にし,モデルサイズと計算の間の線形性を除去する。しかし,従来の深層学習モデルとは異なって,動的負荷不均衡,非効率的同期実行モード,および混雑した全対全通信を含む,これらの訓練システムの効率に大きな課題を引出す。これらの課題に取り組むために,まず,特定の訓練タスクの異なった操作の待ち時間を正確に予測し,新しいルーフライン様モデルを介してそのエンドツーエンド性能を直感的に解析できる性能モデルを提案した。次に,このモデルで誘導して,負荷不均衡に対処する動的シャドウイングアプローチを発明し,異なる操作を分割し,それらを同時に実行するスマート細粒スケジュールを発明した。エキスパート選択の修正が許されるとき,反復のより低い待ち時間のためにネットワーク輻輳を緩和する輻輳回避エキスパート選択戦略を設計した。上記の最適化を一般的システム,FasterMoEとして実装し統合し,効率的分散MoEモデル訓練を実装した。高速MoEを64GPUまでの異なるクラスタシステムで評価した。それは,ZeRO,GShard,およびBASE層を含む大規模モデルのための最先端のシステムと比較して,1.37X-17.87X高速化を達成した。FasterMoEのソースコードは現在https://github.com/thu-pacman/FasterMoEで利用可能である。Please refer to this article’s citation page on the publisher website for specific rights information. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , , , , , , , ,
, , , , 【Automatic Indexing@JST】

著者キーワード (3件)： , ,

人工知能 , パターン認識

, , , , , ,

前のページに戻る