プレプリント
J-GLOBAL ID:202202212904674771   整理番号:22P0322853

ビデオ表現学習のための制御可能な増強【JST・京大機械翻訳】

Controllable Augmentations for Video Representation Learning
著者 (4件):
資料名:
発行年: 2022年03月30日  プレプリントサーバーでの情報更新日: 2022年04月01日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本論文では,自己教師付きビデオ表現学習に焦点を当てた。ほとんどの既存の手法は,異なるクリップをサンプリングすることによって,正と負の対を構成するための対照的学習パイプラインに従う。しかし,この定式化は静的背景にバイアスする傾向があり,グローバルな時間的構造を確立するのが困難である。主な理由は,同じビデオからサンプリングされた異なるクリップが,限られた時間的受容野を持ち,通常,類似の背景を共有するが,運動で異なることである。これらの問題に取り組むために,局所クリップと大域的ビデオを共同利用し,一般的長期時間的関係と同様に詳細な領域レベル対応から学習するフレームワークを提案した。一組の制御可能な増強に基づいて,著者らは,ソフト時空間領域コントラストを通して正確な外観と運動パターンアラインメントを達成した。この定式化は,一般化を改善するために相互情報最小化によって低レベル冗長性ショートカットを避けることができる。また,ロバスト時間モデリングのためのクリップレベルとビデオレベル表現の間のギャップをさらに橋渡しするために,局所大域時間次数依存性を導入した。大規模な実験は,著者らのフレームワークが行動認識とビデオ検索における3つのビデオベンチマークで優れていて,より正確な時間的動特性を捕えることを証明した。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (3件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識  ,  図形・画像処理一般  ,  人工知能 
タイトルに関連する用語 (3件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る