抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
ビジョン変換機(ViT)は,クロスパッチ情報相互作用を通して視覚的表現を明示的に学習するそのユニークな自己注意機構により,様々なコンピュータビジョンタスクにおける主要なツールとなっている。良好な成功にもかかわらず,文献は,視覚変圧器の説明可能性についてはほとんど調査せず,包括的パッチにわたる相関に関する注意機構が,性能にどのような影響を与えるか,そして,更なる可能性にどのような影響を与えるかという明確な描像がない。本研究では,視覚変圧器のためのパッチ間の重要な注意相互作用を解析し解釈するための新しい説明可能な可視化アプローチを提案した。特に,パッチ相互作用の影響を測定するために定量化指標を導入し,注意窓設計と識別パッチ除去に対するそのような定量化を検証した。次に,ViTにおける各パッチの有効応答場を利用し,従ってウィンドウフリー変圧器アーキテクチャを考案した。ImageNetに関する広範な実験は,精巧に設計した定量的方法が,ViTモデル学習を容易にし,最大1精度を4.28%まで導くことを示した。さらに,下流細粒認識タスクの結果は,提案の一般化をさらに検証した。【JST・京大機械翻訳】