文献
J-GLOBAL ID:202202277644265940   整理番号:22A1062868

大規模動的予歪モデルの高速MoEモデリングと最適化訓練【JST・京大機械翻訳】

FasterMoE modeling and optimizing training of large-scale dynamic pre-trained models
著者 (7件):
資料名:
号: PPoPP ’22  ページ: 120-134  発行年: 2022年 
JST資料番号: D0698C  資料種別: 会議録 (C)
記事区分: 原著論文  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
深層学習における現在の傾向は,それらの精度を上げる目的で,モデルを極端に大きいサイズにスケールすることである。Expert-of-Expert(MoE)は,trillion-scaleを超えるパラメータを持つモデルの訓練を可能にする最も一般的な事前訓練モデルである。専門家の動的活性化,すなわち,あるドメインに特殊化した浅い層のおかげで,それはより大きなモデルのスパース訓練を可能にし,モデルサイズと計算の間の線形性を除去する。しかし,従来の深層学習モデルとは異なって,動的負荷不均衡,非効率的同期実行モード,および混雑した全対全通信を含む,これらの訓練システムの効率に大きな課題を引出す。これらの課題に取り組むために,まず,特定の訓練タスクの異なった操作の待ち時間を正確に予測し,新しいルーフライン様モデルを介してそのエンドツーエンド性能を直感的に解析できる性能モデルを提案した。次に,このモデルで誘導して,負荷不均衡に対処する動的シャドウイングアプローチを発明し,異なる操作を分割し,それらを同時に実行するスマート細粒スケジュールを発明した。エキスパート選択の修正が許されるとき,反復のより低い待ち時間のためにネットワーク輻輳を緩和する輻輳回避エキスパート選択戦略を設計した。上記の最適化を一般的システム,FasterMoEとして実装し統合し,効率的分散MoEモデル訓練を実装した。高速MoEを64GPUまでの異なるクラスタシステムで評価した。それは,ZeRO,GShard,およびBASE層を含む大規模モデルのための最先端のシステムと比較して,1.37X-17.87X高速化を達成した。FasterMoEのソースコードは現在https://github.com/thu-pacman/FasterMoEで利用可能である。Please refer to this article’s citation page on the publisher website for specific rights information. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
人工知能  ,  パターン認識 

前のページに戻る