DeepNet:1,000層への変圧器のスケーリング【JST・京大機械翻訳】

Wang Hongyu; Ma Shuming; Dong Li; Huang Shaohan; Zhang Dongdong; Wei Furu

プレプリント

J-GLOBAL ID：202202216642315134 整理番号：22P0297205

DeepNet:1,000層への変圧器のスケーリング【JST・京大機械翻訳】

DeepNet: Scaling Transformers to 1,000 Layers

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (6件)： , , , , ,
資料名：
発行年： 2022年03月01日プレプリントサーバーでの情報更新日： 2022年03月01日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

本論文では,極めて深い変換器を安定化するための簡単で効果的な方法を提案した。特に,理論的に導かれた初期化を伴う変換器における残留接続を修正するために,新しい正規化関数(DeepNorm)を導入した。詳細理論解析は,モデル更新が安定した方法で有界であることを示した。提案方法は,2つの世界,すなわち,Post-LNの良い性能とPre-LNの安定した訓練の最良の性能を結合して,DeepNormを好ましい代替案にした。1000層(すなわち,2,500の注意とフィードフォワードネットワークサブ層)までの変換器を,以前の深い変換器より1桁深い,困難なしに首尾よくスケールした。注目すべきことに,7,482の翻訳方向を有する多言語ベンチマーク上で,3.2Bパラメータを有する著者らの200層モデルは,5BLEUポイントによって12Bパラメータを有する48層の最先端モデルより著しく優れて,それは有望なスケーリング方向を示した。【JST・京大機械翻訳】

, , , , ,
, , , , 【Automatic Indexing@JST】

電力変換器 , 遺伝子発現 , 遺伝学研究法

前のページに戻る