抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
従来のビデオキャプテーションは,ビデオの全体的記述を要求するが,特定のオブジェクトの詳細な記述は利用可能ではない。移動軌跡を連想せずに,これらの画像ベースデータ駆動法は,物体間視覚特徴における時空間遷移からの活動を理解できない。そのうえ,訓練においてあいまいなクリップ-文章ペアを採用することで,それは1対1人の性質のためにマルチモーダル機能マッピングを学習する。本論文では,オブジェクト指向ビデオキャプテーションと呼ばれるオブジェクトレベルのビデオを理解する新しいタスクを提案した。時間的グラフによりビデオベースオブジェクト指向ビデオキャプテーションネットワーク(OVC)-Netを導入し,時間に沿った活動を効果的に解析し,小サンプル条件下で視覚-言語接続を安定的に捕捉する詳細強化を導入した。時間グラフは,以前の画像ベース手法よりも有用な補完を提供し,視覚特徴の時間的進化と空間位置の動的動きから活動を推論できる。詳細強化は,異なるオブジェクト間の識別特徴を捉えるのを助け,それにより,その後のキャプテーションモジュールは,より有益で正確な記述を与えることができる。その後,効果的なクロスモーダル学習を容易にするために,一貫したオブジェクト-エンティティペアを提供する新しいデータセットを構築した。有効性を実証するために,新しいデータセットに関する実験を行い,最先端のビデオキャプテーション法と比較した。実験結果から,OVC-Netは同時オブジェクトを正確に記述する能力を示し,最先端の性能を達成した。【JST・京大機械翻訳】