一つの学生はすべての専門家を知る:スパースから高密度まで【JST・京大機械翻訳】

Xue Fuzhao; He Xiaoxin; Ren Xiaozhe; Lou Yuxuan; You Yang

プレプリント

J-GLOBAL ID：202202217512298030 整理番号：22P0280050

一つの学生はすべての専門家を知る:スパースから高密度まで【JST・京大機械翻訳】

One Student Knows All Experts Know: From Sparse to Dense

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (5件)： , , , ,
資料名：
発行年： 2022年01月26日プレプリントサーバーでの情報更新日： 2022年10月25日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

人間教育システムは,複数の専門家によって1つの学生を訓練する。エキスパート(MoE)は複数のエキスパートを含む強力なスパースアーキテクチャである。しかし,スパースMoEモデルは,実行が容易であり,展開が困難であり,実務者にとってハードウェアに優しい。本研究では,人間教育モデルに触発され,1つのスパースMoEとして知識として,密な学生モデル(OneS)を得るために,新しいタスク,知識統合を提案した。知識収集と知識蒸留を含む一般的訓練フレームワークを提案することにより,このタスクを検討した。特に,異なる事前訓練専門家から重要な知識を集めるために,まず,4つの異なる可能な知識収集方法,すなわち,加算,平均化,トップK知識Gating(Top-KG),およびSingular Value Degration Known Gating(SVD-KG)を本論文で提案した。次に,知識蒸留によって高密度学生モデルを精密化して,収集から雑音をオフセットした。ImageNet上で,著者らの1SはMoEから61.7%の利益を保存し,15Mのパラメータで78.4%のトップ-1精度ImageNetを達成した。4つの自然言語処理データセットにおいて,1Sは88.2%のMoE利益を得て,同じアーキテクチャと訓練データを用いて51.7%の最良のベースラインより優れている。さらに,MoE対応物と比較して,1Sは,より少ない計算とハードウェアフレンドリーなアーキテクチャにより,3.7×推論高速化を達成できる。【JST・京大機械翻訳】

, , , , , , , , , ,
, , , , , 【Automatic Indexing@JST】

人工知能

前のページに戻る