ビデオ接地のためのマルチタスク学習によるモード内およびモード間多重線形プーリング【JST・京大機械翻訳】

Yu Zhou; Song Yijun; Yu Jun; Wang Meng; Huang Qingming

文献

J-GLOBAL ID：202102270742136349 整理番号：21A1276092

ビデオ接地のためのマルチタスク学習によるモード内およびモード間多重線形プーリング【JST・京大機械翻訳】

Intra- and Inter-modal Multilinear Pooling with Multitask Learning for Video Grounding

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=21A1276092&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=21A1276092&from=J-GLOBAL&jstjournalNo=W0953A") }}

著者 (5件)： , , , ,
資料名：
巻： 52 号： 3 ページ： 1863-1879 発行年： 2020年
JST資料番号： W0953A ISSN： 1370-4621 CODEN： NPLEFG 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：ドイツ (DEU) 言語：英語 (EN)

ビデオ接地は,自然言語におけるクエリによって参照される非トリミングビデオにおける動作を時間的に局在化することを目的とし,それは細粒ビデオ理解において重要な役割を果たす。限られた粒度の一時的提案を考えると,タスクは,質問とビデオからマルチモーダル特徴を効果的に融合し,正確に参照行動を局所化することを必要とする。多モード特徴融合のために,著者らは,モード内およびモード間特徴相互作用の両方を考慮することで,マルチモーダル特徴を効果的に結合するために,イントラおよびインターモーダルマルチリニアプール(IIM)モデルを提示する。既存のマルチモーダル融合モデルと比較して,IIMは高次相互作用を捉えることができ,ビデオの時間情報をモデリングできる。行動局所化のために,著者らは,エンドツーエンド方式で行動ラベル,アラインメントスコアおよび精密化位置を同時に予測するための,単純だが効果的なマルチタスク学習フレームワークを提案した。実世界のTaCoSとCharades-STAデータセットに関する実験結果は,既存の最先端の方法よりも提案アプローチの優位性を実証した。Copyright Springer Science+Business Media, LLC, part of Springer Nature 2020 Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , , , , , , ,
, , , , 【Automatic Indexing@JST】

著者キーワード (4件)： , , ,

人工知能

, ,

前のページに戻る