プレプリント
J-GLOBAL ID:202202215631384014   整理番号:22P0291980

エキスパート選択ルーティングによる混合エキスパート【JST・京大機械翻訳】

Mixture-of-Experts with Expert Choice Routing
著者 (10件):
資料名:
発行年: 2022年02月18日  プレプリントサーバーでの情報更新日: 2022年10月13日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
スパースに活性化された混合エキスパート(MoE)モデルは,与えられたトークンまたは与えられたサンプルに対する計算量を不変に維持しながら,パラメータ数を大きく増加させることができる。しかし,貧弱なエキスパートルーティング戦略(例えば,負荷不均衡をもたらすもの)は,ある専門家が訓練を受けることを可能にし,専門家が過小または過剰専門化される。以前の研究は,異なるトークンの相対的重要性に関係なく,トップk関数を用いて各トークンに固定数の専門家を割り当てる。これに取り組むために,エキスパート選択法を採用した異種混合エキスパートを提案した。レッティングトークンの代りにトップkエキスパートを選択する代わりに,トップkトークンを選択する専門家がある。その結果,各トークンは可変数の専門家にルーティングでき,各エキスパートは固定バケットサイズを持つ。事前作業のスイッチ変換器トップ-1とGSハードトップ-2ゲートの同じ計算資源を用いて予訓練高速化を系統的に研究し,著者らの方法が訓練収束時間を2x以上改善することを見出した。同じ計算コストのために,この方法はGLUEとSuperGLUEベンチマークにおいて11の選択されたタスクの微調整においてより高い性能を示した。より小さな活性化コストに対して,この方法は11のタスクのうち7つでT5高密度モデルより優れている。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
人工知能  ,  パターン認識 
タイトルに関連する用語 (2件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る