多重選択質問によるビデオテキスト検索の橋渡し【JST・京大機械翻訳】

Ge Yuying; Ge Yixiao; Liu Xihui; Li Dian; Shan Ying; Qie Xiaohu; Luo Ping

プレプリント

J-GLOBAL ID：202202203822184939 整理番号：22P0027087

多重選択質問によるビデオテキスト検索の橋渡し【JST・京大機械翻訳】

Bridging Video-text Retrieval with Multiple Choice Questions

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (7件)： , , , , , ,
資料名：
発行年： 2022年01月13日プレプリントサーバーでの情報更新日： 2022年03月17日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

検索のための移動可能なビデオテキスト表現を学習するためのモデルを予訓練することは,近年多くの注目を集めている。従来の主要な研究は,主に効率的な検索のために2つの別々の符号器を採用するが,ビデオとテキストの間の局所的関連性を無視する。研究のもう1つのラインは,テキストとビデオを相互作用させるために共同エンコーダを使用するが,各テキストビデオペアがモデルに供給する必要があるので,低い効率をもたらす。本研究では,新しいプレテキストタスクによる検索のための高効率を維持しながら,パラメトリックモジュールブリッジフォルダを訓練して,ビデオ特徴に頼ることを通してテキスト特徴により構築された「質問」に答えるように,新しいプレテキストタスク(MCQ)として,高精度のビデオテキストインタラクションを可能にした。特に,テキストの豊富な意味論(すなわち,名詞と動詞)を利用して質問を構築し,それを用いて,ビデオ符号器を訓練して,より多くの地域コンテンツと時間的ダイナミックスを捉えることができる。質問と回答の形で,局所ビデオテキスト特徴間の意味的関連性を,適切に確立することができた。ブリッジ成形機は,下流検索のために除去することができ,2つの符号器だけを有する効率的で柔軟なモデルをレンダリングする。提案手法は,異なる実験装置(すなわち,ゼロショットおよび微調整)を有する5つのデータセットにおける一般的なテキスト対ビデオ検索タスクに関する最先端手法よりも性能が優れており,HowTo100M(1百万ビデオ)を含む。さらに,ビデオツーテキスト検索としてキャストできるゼロショット動作認識を行い,また,提案アプローチは,その対応物を大幅に凌駕する。付加的な利点として,この方法は,単一モダリティ下流タスク,例えば線形評価による行動認識において,はるかに短い予訓練ビデオとの競合結果を達成した。【JST・京大機械翻訳】

, , , , , , , , , , ,
, , , , , 【Automatic Indexing@JST】

パターン認識

, , ,

前のページに戻る