プレプリント
J-GLOBAL ID:202202217512298030   整理番号:22P0280050

一つの学生はすべての専門家を知る:スパースから高密度まで【JST・京大機械翻訳】

One Student Knows All Experts Know: From Sparse to Dense
著者 (5件):
資料名:
発行年: 2022年01月26日  プレプリントサーバーでの情報更新日: 2022年10月25日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
人間教育システムは,複数の専門家によって1つの学生を訓練する。エキスパート(MoE)は複数のエキスパートを含む強力なスパースアーキテクチャである。しかし,スパースMoEモデルは,実行が容易であり,展開が困難であり,実務者にとってハードウェアに優しい。本研究では,人間教育モデルに触発され,1つのスパースMoEとして知識として,密な学生モデル(OneS)を得るために,新しいタスク,知識統合を提案した。知識収集と知識蒸留を含む一般的訓練フレームワークを提案することにより,このタスクを検討した。特に,異なる事前訓練専門家から重要な知識を集めるために,まず,4つの異なる可能な知識収集方法,すなわち,加算,平均化,トップK知識Gating(Top-KG),およびSingular Value Degration Known Gating(SVD-KG)を本論文で提案した。次に,知識蒸留によって高密度学生モデルを精密化して,収集から雑音をオフセットした。ImageNet上で,著者らの1SはMoEから61.7%の利益を保存し,15Mのパラメータで78.4%のトップ-1精度ImageNetを達成した。4つの自然言語処理データセットにおいて,1Sは88.2%のMoE利益を得て,同じアーキテクチャと訓練データを用いて51.7%の最良のベースラインより優れている。さらに,MoE対応物と比較して,1Sは,より少ない計算とハードウェアフレンドリーなアーキテクチャにより,3.7×推論高速化を達成できる。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
人工知能 
タイトルに関連する用語 (2件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る