キャラクターマター:文字認識関係によるビデオ物語理解【JST・京大機械翻訳】

Geng Shijie; Zhang Ji; Fu Zuohui; Gao Peng; Zhang Hang; de Melo Gerard

プレプリント

J-GLOBAL ID：202202204794038057 整理番号：22P0148436

キャラクターマター:文字認識関係によるビデオ物語理解【JST・京大機械翻訳】

Character Matters: Video Story Understanding with Character-Aware Relations

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (6件)： , , , , ,
資料名：
発行年： 2020年05月09日プレプリントサーバーでの情報更新日： 2020年05月09日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

短いビデオとGIFと異なり,ビデオ階は,明確なプロットと主要な特徴のリストを含む。出現している人々と文字名の間の接続を同定することなく,モデルはプロットの真の理解を得ることができない。ビデオ層質問応答(VSQA)は,モデルのより高いレベル理解能力をベンチマークするための効果的な方法を提供する。しかし,現在のVSQA法は,単にシーンから一般的な視覚特徴を抽出する。このようなアプローチにより,それらは表面相関を学習する傾向がある。何が何処かの真の理解を達成するために,著者らは,特性意識関係を連続的に洗練する新しいモデルを提案した。このモデルは,異なる特性とオブジェクトを接続する関係と同様に,ビデオ階における特性を特異的に考慮している。これらの信号に基づいて,このフレームワークは,マルチインスタンス共起マッチングを通して弱く監督された顔命名を可能にし,変換器構造を利用する高レベル推論をサポートする。TVQAデータセットにおいて,6つの多様なTV上でこのモデルを訓練し,テストし,VSQAに対して最大で公開利用可能なデータセットのみである。拡張アブレーション研究を通してTVQAデータセット上で提案した方法を検証した。【JST・京大機械翻訳】

, , , , , , , ,
, , 【Automatic Indexing@JST】

図形・画像処理一般 , パターン認識

, , ,

前のページに戻る