次に何が起こるのか?ビデオおよび言語の将来イベント予測【JST・京大機械翻訳】

Lei Jie; Yu Licheng; Berg Tamara L.; Bansal Mohit

プレプリント

J-GLOBAL ID：202202204209652667 整理番号：22P0200829

次に何が起こるのか?ビデオおよび言語の将来イベント予測【JST・京大機械翻訳】

What is More Likely to Happen Next? Video-and-Language Future Event Prediction

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (4件)： , , ,
資料名：
発行年： 2020年10月15日プレプリントサーバーでの情報更新日： 2020年10月15日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

配列された対話を有するビデオを与えられた場合,人々は,次のように起こる可能性が高いことをしばしば推論することができる。このような予測を行うには,ビデオと対話の根底にある豊富な動力学の深い理解だけでなく,また,かなりの量の共通の知識も必要である。本研究では,AIモデルがそのようなマルチモーダルコモンセンスの次の事象予測を学習できるかどうかを探求した。この方向における研究をサポートするために,著者らは,ビデオおよび言語イベント予測(VLEP)という新しいデータセットを収集し,10,234の多様なTV ShowおよびYouTube Lifeスタイル Vlogビデオクリップからの28,726の将来のイベント予測例(それらの理論的根拠を有する)と命名した。非自明な挑戦的事例の収集を促進するために,著者らは,敵対的人間およびモデルインザループデータ収集手順を採用した。また,ビデオ,対話,およびコモンセンス知識からの情報を組み込んだ強いベースラインも提示する。実験は,各タイプの情報が,この挑戦的なタスクに対して有用であり,VLEP上の高い人間性能と比較して,著者らのモデルは,良い出発点を提供するが,将来の研究のために大きな部屋を提供することを示した。著者らのデータセットとコードは,https://github.com/jayleicn/VideoLanguageFuturePredで利用可能である。【JST・京大機械翻訳】

, , , , , , , , ,
, , , 【Automatic Indexing@JST】

図形・画像処理一般

, , , ,

前のページに戻る