長コンテキストNLPモデルのための効率対精度トレードオフの特性化【JST・京大機械翻訳】

Ang Phyllis; Dhingra Bhuwan; Wills Lisa Wu

プレプリント

J-GLOBAL ID：202202210655320554 整理番号：22P0332576

長コンテキストNLPモデルのための効率対精度トレードオフの特性化【JST・京大機械翻訳】

Characterizing the Efficiency vs. Accuracy Trade-off for Long-Context NLP Models

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (3件)： , ,
資料名：
発行年： 2022年04月14日プレプリントサーバーでの情報更新日： 2022年04月14日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

長いテキストから成る自然言語処理(NLP)の多くの実世界アプリケーションで,より長い入力シーケンスを扱うことができるモデルの精度を測定するNLPベンチマークの上昇があった。しかし,これらのベンチマークは,入力サイズまたはモデルサイズが変化するとき,精度,速度,および電力消費の間のトレードオフを考慮しない。本研究では,SCROLLSベンチマークから4つのデータセットについて,2つの広く使用された長配列モデル,すなわち,Longformor-Encoder-Decoder(LED)とBig Bird-during 微調整と推論について,この精度対効率トレードオフの系統的研究を行った。このトレードオフがハイパーパラメータ設定でどのように異なるかを研究するために,固定資源予算の下で,4つのシーケンス長さ(1024,2048,3072,4096)と2つのモデルサイズ(ベースと大きい)のモデルを比較した。LEDは,Big Birdより低いエネルギーコストで,一貫してより良い精度を達成することを見出した。要約のために,著者らは,モデルサイズの増加が,より高い正確さのためにシーケンス長さを増やすよりエネルギー効率が良いことを見つけた。しかし,これは推論速度の大きな低下のコストになる。質問回答に対して,固定資源予算の下で可能な大きな訓練バッチサイズにより,より小さなモデルがより効率的で正確であることを見出した。【JST・京大機械翻訳】

, , , , , , , ,
, , 【Automatic Indexing@JST】

計算機システム開発 , その他の情報処理 , 原子炉核特性 , ディジタル計算機ハードウェア一般 , 半導体集積回路

, , , ,

前のページに戻る