ビデオベース行動認識のための動き駆動視覚テンポ学習【JST・京大機械翻訳】

Liu Yuanzhong; Yuan Junsong; Tu Zhigang

プレプリント

J-GLOBAL ID：202202203156751440 整理番号：22P0294728

ビデオベース行動認識のための動き駆動視覚テンポ学習【JST・京大機械翻訳】

Motion-driven Visual Tempo Learning for Video-based Action Recognition

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (3件)： , ,
資料名：
発行年： 2022年02月24日プレプリントサーバーでの情報更新日： 2022年05月25日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

※このプレプリント論文は学術誌に掲載済みです。なお、学術誌掲載の際には一部内容が変更されている可能性があります。

行動視覚テンポは動作のダイナミクスと時間的スケールを特性化し,視覚動力学と外観において高い類似性を共有する人間行動を区別するのに役立つ。以前の方法は,各レートを処理するための高価な多層ネットワークを必要とする,あるいは階層的サンプリングバックボーン特徴により,複数の速度を有する生ビデオをサンプリングすることにより,視覚テンポを捉え,それは,微細粒時間ダイナミクスを誤る高レベル特徴に大きく依存した。本研究では,単一層における低レベルバックボーン特徴から行動視覚テンポを抽出するため,プラグインアンドプレイ方式で現在の行動認識バックボーンに容易に埋め込むことができる時間相関モジュール(TCM)を提案した。特に,著者らのTCMは,2つの主成分,即ち,マルチスケール時間動力学モジュール(MTDM)と時間的注意モジュール(TAM)を含む。MTDMは相関操作を適用し,高速テンプレートと低速テンプレートの両方に対するピクセルワイズ細粒時間ダイナミクスを学習する。TAMは,適応的に表現特徴を強調し,様々なテンポ間の大域的情報を分析することにより,必須なものにおいて抑圧する。いくつかの行動認識ベンチマーク,例えば,いくつかの行動認識V1&V2,速度-400,UCF-101,およびHMDB-51に関して行われた大規模な実験は,提案したTCMが,大きなマージンのための既存のビデオベースの行動認識モデルの性能を促進するのに有効であることを示した。ソースコードはhttps://github.com/yzfly/TCMで公開されている。【JST・京大機械翻訳】

, , , , , , , , , , , ,
, , , 【Automatic Indexing@JST】

パターン認識 , 図形・画像処理一般

, , , , ,

前のページに戻る