視覚変圧器はどのように働くか【JST・京大機械翻訳】

Park Namuk; Kim Songkuk

プレプリント

J-GLOBAL ID：202202211721473045 整理番号：22P0289321

視覚変圧器はどのように働くか【JST・京大機械翻訳】

How Do Vision Transformers Work?

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (2件)： ,
資料名：
発行年： 2022年02月14日プレプリントサーバーでの情報更新日： 2022年06月08日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

コンピュータビジョンのためのマルチヘッド自己注意(MSAs)の成功は,今や不可解である。しかし,MSAsがどのように働くかについてはほとんど知られていない。MSAsの性質をより良く理解するための基本的説明を提示した。特に,MSAsとVision変換器(ViT)の次の性質を示した。(1)MSAsは精度だけでなく,損失景観の平坦化による一般化も改善する。このような改善は主にそれらのデータ特異性に起因し,長距離依存性ではない。一方,Vitsは非凸損失に悩まされる。大きなデータセットと損失景観平滑化法はこの問題を軽減する。(2)MSAsとConvsは反対の挙動を示す。例えば,MSAsはローパスフィルタであるが,Convsは高いパスフィルタである。したがって,MSAsとConvsは相補的である;(3)多段ニューラルネットワークは,小さな個々のモデルの直列接続のように振舞う。さらに,ステージの終わりのMSAsは,予測において鍵となる役割を果たす。これらの洞察に基づいて,ステージの終わりにConvブロックをMSAブロックで置換するモデルであるAlterNetを提案した。AlterNetは,大きなデータ領域だけでなく,小さなデータ領域でもCNNを凌駕する。コードはhttps://github.com/xxxnell/how do vits workで利用可能である。【JST・京大機械翻訳】

, , , , , , , , ,
, , , , 【Automatic Indexing@JST】

半導体レーザ

前のページに戻る