動的視覚認識に対する Gと焦点ネットワーク【JST・京大機械翻訳】

Huang Gao; Wang Yulin; Lv Kangchen; Jiang Haojun; Huang Wenhui; Qi Pengfei; Song Shiji

プレプリント

J-GLOBAL ID：202202205270663201 整理番号：22P0025251

動的視覚認識に対する Gと焦点ネットワーク【JST・京大機械翻訳】

Glance and Focus Networks for Dynamic Visual Recognition

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (7件)： , , , , , ,
資料名：
発行年： 2022年01月09日プレプリントサーバーでの情報更新日： 2022年08月04日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

空間冗長性は,視覚認識タスクにおいて広く存在し,即ち,画像またはビデオフレームにおける識別的特徴は,通常,ピクセルの部分集合のみに対応し,一方,残りの領域は,手作業に無関係である。したがって,等価量の計算ですべての画素を処理する静的モデルは,時間と空間消費に関してかなりの冗長性をもたらす。本論文では,画像認識問題を,人間の視覚システムを模倣する逐次粗から微細特徴学習プロセスとして定式化した。特に,提案Glanceとフォーカスネットワーク(GFNet)は,まず,低解像度スケールで入力画像の迅速な大域的表現を抽出し,次に,より細かい特徴の学習のために,一連の顕著(小)領域に対して戦略的に意図する。逐次プロセスは試験時間で適応推論を自然に促進し,モデルがその予測について十分に信頼できれば,さらに冗長な計算を避けられる。このモデルにおける判別領域の位置決め問題は,強化学習タスクとして定式化され,分類ラベル以外の追加の手動アノテーションを必要としない。GFNetは,特徴抽出器として便利に展開できる,任意のオフ-市販バックボーンモデル(モバイルNets,効率的NetsおよびTSM)と互換性があるので,一般的かつ柔軟である。多様な画像分類とビデオ認識タスクおよび様々なバックボーンモデルに関する広範な実験は,著者らの方法の顕著な効率を実証した。例えば,それは,精度を犠牲にすることなく,iPhone XS Max上の高効率MobileNet-V3の平均待ち時間を1.3x削減する。コードと事前訓練モデルはhttps://github.com/blackfeather wang/GFNet Pytorchで利用可能である。【JST・京大機械翻訳】

, , , , , , , , , , , , , ,

パターン認識 , 図形・画像処理一般

前のページに戻る