OVC-Net:時間グラフと詳細強調によるオブジェクト指向ビデオキャプション【JST・京大機械翻訳】

Zhu Fangyi; Hwang Jenq-Neng; Ma Zhanyu; Chen Guang; Guo Jun

プレプリント

J-GLOBAL ID：202202205909635417 整理番号：22P0120616

OVC-Net:時間グラフと詳細強調によるオブジェクト指向ビデオキャプション【JST・京大機械翻訳】

OVC-Net: Object-Oriented Video Captioning with Temporal Graph and Detail Enhancement

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (5件)： , , , ,
資料名：
発行年： 2020年03月07日プレプリントサーバーでの情報更新日： 2020年07月14日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

従来のビデオキャプテーションは,ビデオの全体的記述を要求するが,特定のオブジェクトの詳細な記述は利用可能ではない。移動軌跡を連想せずに,これらの画像ベースデータ駆動法は,物体間視覚特徴における時空間遷移からの活動を理解できない。そのうえ,訓練においてあいまいなクリップ-文章ペアを採用することで,それは1対1人の性質のためにマルチモーダル機能マッピングを学習する。本論文では,オブジェクト指向ビデオキャプテーションと呼ばれるオブジェクトレベルのビデオを理解する新しいタスクを提案した。時間的グラフによりビデオベースオブジェクト指向ビデオキャプテーションネットワーク(OVC)-Netを導入し,時間に沿った活動を効果的に解析し,小サンプル条件下で視覚-言語接続を安定的に捕捉する詳細強化を導入した。時間グラフは,以前の画像ベース手法よりも有用な補完を提供し,視覚特徴の時間的進化と空間位置の動的動きから活動を推論できる。詳細強化は,異なるオブジェクト間の識別特徴を捉えるのを助け,それにより,その後のキャプテーションモジュールは,より有益で正確な記述を与えることができる。その後,効果的なクロスモーダル学習を容易にするために,一貫したオブジェクト-エンティティペアを提供する新しいデータセットを構築した。有効性を実証するために,新しいデータセットに関する実験を行い,最先端のビデオキャプテーション法と比較した。実験結果から,OVC-Netは同時オブジェクトを正確に記述する能力を示し,最先端の性能を達成した。【JST・京大機械翻訳】

, , , , , , , , , , ,
, , , , 【Automatic Indexing@JST】

図形・画像処理一般 , パターン認識

, , ,

前のページに戻る