BiBERT:正確な完全二値化BERT【JST・京大機械翻訳】

Qin Haotong; Ding Yifu; Zhang Mingyuan; Yan Qinghua; Liu Aishan; Dang Qingqing; Liu Ziwei; Liu Xianglong

プレプリント

J-GLOBAL ID：202202217657031708 整理番号：22P0303040

BiBERT:正確な完全二値化BERT【JST・京大機械翻訳】

BiBERT: Accurate Fully Binarized BERT

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (8件)： , , , , , , ,
資料名：
発行年： 2022年03月12日プレプリントサーバーでの情報更新日： 2022年03月12日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

大規模事前訓練BERTは,自然言語処理(NLP)タスクに関して顕著な性能を達成したが,計算およびメモリ高価である。強力な圧縮アプローチの1つとして,二値化は,1ビットパラメータとビットワイズ操作を利用することによって,計算およびメモリ消費を大幅に削減する。残念なことに,BERT(すなわち,1ビット重量,埋込み,および活性化)の完全二値化は,通常,著しい性能低下に悩まし,この問題に対処するまれな研究がある。本論文では,理論的正当化と経験的解析により,厳しい性能低下は主に前方と後方伝播における情報劣化と最適化方向不整合に起因し,性能ボトルネックを除去する正確な完全二値化BERTであるBiBERTを提案した。特に,BiBERTは,完全二値化BERTを正確に最適化するために,表現情報を統計的に最大化するための効率的なBi-Attent構造を導入した。大規模な実験は,BiBERTが,NLPベンチマークに関する説得力のあるマージンによる超低ビット活性化で,直接的ベースラインと既存の最先端の量子化BERTの両方より優れていることを示した。最初の完全二値化BERTとして,提案手法は,FLOPとモデルサイズに対して,印象的な56.3倍と31.2倍の節約をもたらし,実世界資源制約シナリオにおける完全二値化BERTモデルの広大な利点と可能性を実証した。【JST・京大機械翻訳】

, , , , , , , ,
, , , 【Automatic Indexing@JST】

図形・画像処理一般 , 人工知能

前のページに戻る