プレプリント
J-GLOBAL ID:202202205270663201   整理番号:22P0025251

動的視覚認識に対する Gと焦点ネットワーク【JST・京大機械翻訳】

Glance and Focus Networks for Dynamic Visual Recognition
著者 (7件):
資料名:
発行年: 2022年01月09日  プレプリントサーバーでの情報更新日: 2022年08月04日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
空間冗長性は,視覚認識タスクにおいて広く存在し,即ち,画像またはビデオフレームにおける識別的特徴は,通常,ピクセルの部分集合のみに対応し,一方,残りの領域は,手作業に無関係である。したがって,等価量の計算ですべての画素を処理する静的モデルは,時間と空間消費に関してかなりの冗長性をもたらす。本論文では,画像認識問題を,人間の視覚システムを模倣する逐次粗から微細特徴学習プロセスとして定式化した。特に,提案Glanceとフォーカスネットワーク(GFNet)は,まず,低解像度スケールで入力画像の迅速な大域的表現を抽出し,次に,より細かい特徴の学習のために,一連の顕著(小)領域に対して戦略的に意図する。逐次プロセスは試験時間で適応推論を自然に促進し,モデルがその予測について十分に信頼できれば,さらに冗長な計算を避けられる。このモデルにおける判別領域の位置決め問題は,強化学習タスクとして定式化され,分類ラベル以外の追加の手動アノテーションを必要としない。GFNetは,特徴抽出器として便利に展開できる,任意のオフ-市販バックボーンモデル(モバイルNets,効率的NetsおよびTSM)と互換性があるので,一般的かつ柔軟である。多様な画像分類とビデオ認識タスクおよび様々なバックボーンモデルに関する広範な実験は,著者らの方法の顕著な効率を実証した。例えば,それは,精度を犠牲にすることなく,iPhone XS Max上の高効率MobileNet-V3の平均待ち時間を1.3x削減する。コードと事前訓練モデルはhttps://github.com/blackfeather wang/GFNet Pytorchで利用可能である。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識  ,  図形・画像処理一般 
タイトルに関連する用語 (2件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る