文献
J-GLOBAL ID:202202295789293617   整理番号:22A1062473

大規模深層学習モデルのVarunaスケーラブル,低コストトレーニング【JST・京大機械翻訳】

Varuna scalable, low-cost training of massive deep learning models
著者 (5件):
資料名:
号: EuroSys ’22  ページ: 472-487  発行年: 2022年 
JST資料番号: D0698C  資料種別: 会議録 (C)
記事区分: 原著論文  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
今日,大規模深層学習モデル(パラメータ)を訓練するためのシステムは,NV-LinkおよびInfinibandのような特殊化高帯域幅相互接続で有線化された数百または数千のGPUを,特殊化した「ハイパークラスタ」を想定し,要求する。高価なことに加えて,ハイパークラスタとカスタム高速インターコネクトへのそのような依存性は,そのようなクラスタのサイズを制限し,(a)ジョブ並列性に関するスケーラビリティ限界を創出する。(b)ハイパークラスタにわたる資源フラグメンテーション。本論文では,商品ネットワーキングに関する大規模深層学習モデル訓練を可能にする新しいシステムを提案した。Varunaは,ネットワーク化資源のリフティス利用をし,自動的にユーザの訓練ジョブを構成して,任意の与えられた資源セットを効率的に使用する。従って,Varunaは,専用GPUよりも約5x安いコストの「低優先度」VMを活用でき,従って,訓練大規模モデルのコストを大幅に削減できる。著者らは,高訓練スループットを維持しながら,5xの安い”スポットVM”に関して,200億のパラメータモデルを含む大規模モデルの訓練によるVarunaの有効性を実証した。Varunaは,他のモデル並列手法と比較して18xまでBERTとGPT-2のような言語モデルに対するエンドツーエンド訓練時間を改善し,商品VMsに関する他のパイプライン並列アプローチと比較して26%まで上昇した。Varunaのコードはhttps://github.com/microsoft/varunaで利用可能である。Please refer to this article’s citation page on the publisher website for specific rights information. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
人工知能  ,  パターン認識 
タイトルに関連する用語 (4件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る