抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
空間冗長性は,視覚認識タスクにおいて広く存在し,即ち,画像またはビデオフレームにおける識別的特徴は,通常,ピクセルの部分集合のみに対応し,一方,残りの領域は,手作業に無関係である。したがって,等価量の計算ですべての画素を処理する静的モデルは,時間と空間消費に関してかなりの冗長性をもたらす。本論文では,画像認識問題を,人間の視覚システムを模倣する逐次粗から微細特徴学習プロセスとして定式化した。特に,提案Glanceとフォーカスネットワーク(GFNet)は,まず,低解像度スケールで入力画像の迅速な大域的表現を抽出し,次に,より細かい特徴の学習のために,一連の顕著(小)領域に対して戦略的に意図する。逐次プロセスは試験時間で適応推論を自然に促進し,モデルがその予測について十分に信頼できれば,さらに冗長な計算を避けられる。このモデルにおける判別領域の位置決め問題は,強化学習タスクとして定式化され,分類ラベル以外の追加の手動アノテーションを必要としない。GFNetは,特徴抽出器として便利に展開できる,任意のオフ-市販バックボーンモデル(モバイルNets,効率的NetsおよびTSM)と互換性があるので,一般的かつ柔軟である。多様な画像分類とビデオ認識タスクおよび様々なバックボーンモデルに関する広範な実験は,著者らの方法の顕著な効率を実証した。例えば,それは,精度を犠牲にすることなく,iPhone XS Max上の高効率MobileNet-V3の平均待ち時間を1.3x削減する。コードと事前訓練モデルはhttps://github.com/blackfeather wang/GFNet Pytorchで利用可能である。【JST・京大機械翻訳】