抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本来,自然言語処理タスクのために設計されたが,自己注意機構は,最近,嵐によって様々なコンピュータビジョン領域を取り上げてきた。しかし,画像の2D特性はコンピュータビジョンにおける自己注意を適用するための3つの課題をもたらす。1)1Dシーケンスとしての画像処理は,それらの2D構造を無視した。(2)二次複雑度は高分解能画像には高価すぎる。(3)それは空間適応性を捕えるだけであるが,チャネル適応性を無視した。本論文では,その欠点を回避しながら,自己適応における自己適応および長範囲相関を可能にするために,大きなカーネル注意(LKA)という新しい線形注意を提案した。さらに,LKAに基づくニューラルネットワーク,すなわち視覚注意ネットワーク(VAN)を提示した。非常に単純であるが,VANは,画像分類,物体検出,意味セグメンテーション,パン光学分割,姿勢推定など様々なタスクにおいて,類似サイズのビジョン変圧器(ViT)と畳込みニューラルネットワーク(CNN)を凌駕し,VAN-B6は,画像Netベンチマーク上で87.8%の精度を達成し,そして,光セグメンテーションのために新しい最先端の性能(58.2PQ)をセットした。そのうえ,VAN-B2は,ADE20Kベンチマーク,2.6%AP(48.8対46.2)に関するセマンティックセグメンテーションのために,Swin-T4%mIoU(50.1対46.1)を,COCOデータセットの対象検出に対して凌駕した。それは,コミュニティのための新しい方法と単純だが強力なベースラインを提供する。コードはhttps://github.com/Visual Attention Networkで利用可能である。【JST・京大機械翻訳】