効率的なBERTプレトレーニングのためのトークン落下【JST・京大機械翻訳】

Hou Le; Pang Richard Yuanzhe; Zhou Tianyi; Wu Yuexin; Song Xinying; Song Xiaodan; Zhou Denny

プレプリント

J-GLOBAL ID：202202202663880809 整理番号：22P0309890

効率的なBERTプレトレーニングのためのトークン落下【JST・京大機械翻訳】

Token Dropping for Efficient BERT Pretraining

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (7件)： , , , , , ,
資料名：
発行年： 2022年03月24日プレプリントサーバーでの情報更新日： 2022年03月24日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

変圧器ベースのモデルは,与えられたシーケンスにおいて各トークンに対して同じ量の計算を一般的に割り当てる。下流タスクでその性能を劣化せずに,BERTのような変圧器モデルの予訓練を加速する簡単で効果的な「トークンドロップ」法を開発した。要するに,モデル内の中間層から出発する重要でないトークンを落下し,このモデルを重要なトークンに絞った。落下トークンは,その後,モデルの最後の層によってピックアップされ,そのモデルは,まだ完全な長さのシーケンスを生成する。既に構築したマスク付き言語モデリング(MLM)損失を利用して,実用的に計算オーバヘッドを持たないユニポータントトークンを同定した。著者らの実験では,この簡単なアプローチは,標準下流タスクで同様の全体的微調整性能を達成しながら,BERTの予訓練コストを25%削減する。【JST・京大機械翻訳】

,
, , , 【Automatic Indexing@JST】

パターン認識 , 自然語処理

, ,

前のページに戻る