抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
短いビデオとGIFと異なり,ビデオ階は,明確なプロットと主要な特徴のリストを含む。出現している人々と文字名の間の接続を同定することなく,モデルはプロットの真の理解を得ることができない。ビデオ層質問応答(VSQA)は,モデルのより高いレベル理解能力をベンチマークするための効果的な方法を提供する。しかし,現在のVSQA法は,単にシーンから一般的な視覚特徴を抽出する。このようなアプローチにより,それらは表面相関を学習する傾向がある。何が何処かの真の理解を達成するために,著者らは,特性意識関係を連続的に洗練する新しいモデルを提案した。このモデルは,異なる特性とオブジェクトを接続する関係と同様に,ビデオ階における特性を特異的に考慮している。これらの信号に基づいて,このフレームワークは,マルチインスタンス共起マッチングを通して弱く監督された顔命名を可能にし,変換器構造を利用する高レベル推論をサポートする。TVQAデータセットにおいて,6つの多様なTV上でこのモデルを訓練し,テストし,VSQAに対して最大で公開利用可能なデータセットのみである。拡張アブレーション研究を通してTVQAデータセット上で提案した方法を検証した。【JST・京大機械翻訳】