視覚注意ネットワーク【JST・京大機械翻訳】

Guo Meng-Hao; Lu Cheng-Ze; Liu Zheng-Ning; Cheng Ming-Ming; Hu Shi-Min

プレプリント

J-GLOBAL ID：202202212686790357 整理番号：22P0292353

視覚注意ネットワーク【JST・京大機械翻訳】

Visual Attention Network

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (5件)： , , , ,
資料名：
発行年： 2022年02月20日プレプリントサーバーでの情報更新日： 2022年07月11日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

本来,自然言語処理タスクのために設計されたが,自己注意機構は,最近,嵐によって様々なコンピュータビジョン領域を取り上げてきた。しかし,画像の2D特性はコンピュータビジョンにおける自己注意を適用するための3つの課題をもたらす。1)1Dシーケンスとしての画像処理は,それらの2D構造を無視した。(2)二次複雑度は高分解能画像には高価すぎる。(3)それは空間適応性を捕えるだけであるが,チャネル適応性を無視した。本論文では,その欠点を回避しながら,自己適応における自己適応および長範囲相関を可能にするために,大きなカーネル注意(LKA)という新しい線形注意を提案した。さらに,LKAに基づくニューラルネットワーク,すなわち視覚注意ネットワーク(VAN)を提示した。非常に単純であるが,VANは,画像分類,物体検出,意味セグメンテーション,パン光学分割,姿勢推定など様々なタスクにおいて,類似サイズのビジョン変圧器(ViT)と畳込みニューラルネットワーク(CNN)を凌駕し,VAN-B6は,画像Netベンチマーク上で87.8%の精度を達成し,そして,光セグメンテーションのために新しい最先端の性能(58.2PQ)をセットした。そのうえ,VAN-B2は,ADE20Kベンチマーク,2.6%AP(48.8対46.2)に関するセマンティックセグメンテーションのために,Swin-T4%mIoU(50.1対46.1)を,COCOデータセットの対象検出に対して凌駕した。それは,コミュニティのための新しい方法と単純だが強力なベースラインを提供する。コードはhttps://github.com/Visual Attention Networkで利用可能である。【JST・京大機械翻訳】

, , , , , , , , , , ,
, , , , 【Automatic Indexing@JST】

図形・画像処理一般

前のページに戻る