ビデオ表現学習のための制御可能な増強【JST・京大機械翻訳】

Qian Rui; Lin Weiyao; See John; Li Dian

プレプリント

J-GLOBAL ID：202202212904674771 整理番号：22P0322853

ビデオ表現学習のための制御可能な増強【JST・京大機械翻訳】

Controllable Augmentations for Video Representation Learning

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (4件)： , , ,
資料名：
発行年： 2022年03月30日プレプリントサーバーでの情報更新日： 2022年04月01日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

本論文では,自己教師付きビデオ表現学習に焦点を当てた。ほとんどの既存の手法は,異なるクリップをサンプリングすることによって,正と負の対を構成するための対照的学習パイプラインに従う。しかし,この定式化は静的背景にバイアスする傾向があり,グローバルな時間的構造を確立するのが困難である。主な理由は,同じビデオからサンプリングされた異なるクリップが,限られた時間的受容野を持ち,通常,類似の背景を共有するが,運動で異なることである。これらの問題に取り組むために,局所クリップと大域的ビデオを共同利用し,一般的長期時間的関係と同様に詳細な領域レベル対応から学習するフレームワークを提案した。一組の制御可能な増強に基づいて,著者らは,ソフト時空間領域コントラストを通して正確な外観と運動パターンアラインメントを達成した。この定式化は,一般化を改善するために相互情報最小化によって低レベル冗長性ショートカットを避けることができる。また,ロバスト時間モデリングのためのクリップレベルとビデオレベル表現の間のギャップをさらに橋渡しするために,局所大域時間次数依存性を導入した。大規模な実験は,著者らのフレームワークが行動認識とビデオ検索における3つのビデオベンチマークで優れていて,より正確な時間的動特性を捕えることを証明した。【JST・京大機械翻訳】

, , , , , , , , , , , ,
, , , , 【Automatic Indexing@JST】

パターン認識 , 図形・画像処理一般 , 人工知能

, ,

前のページに戻る