注意はゼロ近似誤差を可能にする【JST・京大機械翻訳】

Fang Zhiying; Ouyang Yidong; Zhou Ding-Xuan; Cheng Guang

プレプリント

J-GLOBAL ID：202202219954557185 整理番号：22P0294778

注意はゼロ近似誤差を可能にする【JST・京大機械翻訳】

Attention Enables Zero Approximation Error

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (4件)： , , ,
資料名：
発行年： 2022年02月24日プレプリントサーバーでの情報更新日： 2022年02月24日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

深層学習モデルは日常生活の様々な側面に広く適用されている。深い学習構造に基づく多くのバリアントモデルは,より良い性能を達成した。注意ベースアーキテクチャは,深層学習構造においてほとんど遍在している。特に,変圧器モデルは,画像分類タスクにおける畳み込みニューラルネットワークを,最も広く使われるツールになるために,今や,デフレートした。しかし,注意ベースモデルの理論特性はほとんど考慮されていない。本研究では,適切な適応により,固定数の変圧器符号器ブロックと自由パラメータを有する単一ヘッド自己アテンション変圧器は,誤差のない入力の任意の望ましい多項式を生成することができることを示した。変圧器符号器ブロックの数は,目標多項式の程度と同じである。より刺激的であっても,このモデルにおけるこれらの変圧器符号器ブロックは訓練する必要がないことを見出した。直接結果として,著者らは,自由パラメータ数の増加による単一ヘッド自己注意変圧器が普遍的であることを示した。これらの驚くべき理論的結果は,変圧器モデルの優れた性能を明確に説明し,実際の応用における将来の修正に光を当てる。また,いくつかの実験を行い,理論的結果を検証した。【JST・京大機械翻訳】

, , , , ,
, , , 【Automatic Indexing@JST】

人工知能 , ニューロコンピュータ

, ,

前のページに戻る