抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本論文では,自己教師付きビデオ表現学習に焦点を当てた。ほとんどの既存の手法は,異なるクリップをサンプリングすることによって,正と負の対を構成するための対照的学習パイプラインに従う。しかし,この定式化は静的背景にバイアスする傾向があり,グローバルな時間的構造を確立するのが困難である。主な理由は,同じビデオからサンプリングされた異なるクリップが,限られた時間的受容野を持ち,通常,類似の背景を共有するが,運動で異なることである。これらの問題に取り組むために,局所クリップと大域的ビデオを共同利用し,一般的長期時間的関係と同様に詳細な領域レベル対応から学習するフレームワークを提案した。一組の制御可能な増強に基づいて,著者らは,ソフト時空間領域コントラストを通して正確な外観と運動パターンアラインメントを達成した。この定式化は,一般化を改善するために相互情報最小化によって低レベル冗長性ショートカットを避けることができる。また,ロバスト時間モデリングのためのクリップレベルとビデオレベル表現の間のギャップをさらに橋渡しするために,局所大域時間次数依存性を導入した。大規模な実験は,著者らのフレームワークが行動認識とビデオ検索における3つのビデオベンチマークで優れていて,より正確な時間的動特性を捕えることを証明した。【JST・京大機械翻訳】