視覚変圧器におけるパッチ相互作用の可視化と理解【JST・京大機械翻訳】

Ma Jie; Bai Yalong; Zhong Bineng; Zhang Wei; Yao Ting; Mei Tao

プレプリント

J-GLOBAL ID：202202202634548226 整理番号：22P0302572

視覚変圧器におけるパッチ相互作用の可視化と理解【JST・京大機械翻訳】

Visualizing and Understanding Patch Interactions in Vision Transformer

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (6件)： , , , , ,
資料名：
発行年： 2022年03月11日プレプリントサーバーでの情報更新日： 2022年03月11日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

ビジョン変換機(ViT)は,クロスパッチ情報相互作用を通して視覚的表現を明示的に学習するそのユニークな自己注意機構により,様々なコンピュータビジョンタスクにおける主要なツールとなっている。良好な成功にもかかわらず,文献は,視覚変圧器の説明可能性についてはほとんど調査せず,包括的パッチにわたる相関に関する注意機構が,性能にどのような影響を与えるか,そして,更なる可能性にどのような影響を与えるかという明確な描像がない。本研究では,視覚変圧器のためのパッチ間の重要な注意相互作用を解析し解釈するための新しい説明可能な可視化アプローチを提案した。特に,パッチ相互作用の影響を測定するために定量化指標を導入し,注意窓設計と識別パッチ除去に対するそのような定量化を検証した。次に,ViTにおける各パッチの有効応答場を利用し,従ってウィンドウフリー変圧器アーキテクチャを考案した。ImageNetに関する広範な実験は,精巧に設計した定量的方法が,ViTモデル学習を容易にし,最大1精度を4.28%まで導くことを示した。さらに,下流細粒認識タスクの結果は,提案の一般化をさらに検証した。【JST・京大機械翻訳】

, , , , , , , , ,
, 【Automatic Indexing@JST】

パターン認識 , 図形・画像処理一般

, , , , ,

前のページに戻る