ビデオ動作認識のためのゲートシフトヒューズ【JST・京大機械翻訳】

Sudhakaran Swathikiran; Escalera Sergio; Lanz Oswald

プレプリント

J-GLOBAL ID：202202209946126722 整理番号：22P0305547

ビデオ動作認識のためのゲートシフトヒューズ【JST・京大機械翻訳】

Gate-Shift-Fuse for Video Action Recognition

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (3件)： , ,
資料名：
発行年： 2022年03月16日プレプリントサーバーでの情報更新日： 2023年04月15日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

畳込みニューラルネットワークは画像認識のためのデファクトモデルである。しかし,ビデオ認識のための2D CNNの直線前方拡張である3D CNNsは,標準行動認識ベンチマークに関して同じ成功を達成しなかった。3D CNNのこの低減性能の主な理由の1つは,大規模注釈データセットを必要とする計算複雑性の増加であり,それらをスケールに訓練することにある。3Dカーネル因数分解手法を提案し,3D CNNの複雑性を低減した。既存のカーネル因数分解手法は,手設計およびハードワイヤ技術に従う。本論文では,時空間分解における相互作用を制御し,時間を通して適応的に経路特徴を学習し,それらをデータ依存方式で結合させる新しい時空間特徴抽出モジュールであるゲート-シフト-フューズ(GSF)を提案した。GSFは,分解テンソルを融合するために入力テンソルとチャネル重みづけを分解するために,グループ化された空間ゲーティングを利用する。GSFは,既存の2D CNNに挿入され,それらを,無視できるパラメータおよび計算オーバヘッドで,効率的で高性能の時空間特徴抽出器に変換する。著者らは,2つの一般的な2D CNNファミリーを用いてGSFの広範囲な解析を行い,5つの標準行動認識ベンチマークで最先端のまたは競合性能を達成した。【JST・京大機械翻訳】

, , , , , , , , , , ,
, , , 【Automatic Indexing@JST】

パターン認識

前のページに戻る