抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
検索のための移動可能なビデオテキスト表現を学習するためのモデルを予訓練することは,近年多くの注目を集めている。従来の主要な研究は,主に効率的な検索のために2つの別々の符号器を採用するが,ビデオとテキストの間の局所的関連性を無視する。研究のもう1つのラインは,テキストとビデオを相互作用させるために共同エンコーダを使用するが,各テキストビデオペアがモデルに供給する必要があるので,低い効率をもたらす。本研究では,新しいプレテキストタスクによる検索のための高効率を維持しながら,パラメトリックモジュールブリッジフォルダを訓練して,ビデオ特徴に頼ることを通してテキスト特徴により構築された「質問」に答えるように,新しいプレテキストタスク(MCQ)として,高精度のビデオテキストインタラクションを可能にした。特に,テキストの豊富な意味論(すなわち,名詞と動詞)を利用して質問を構築し,それを用いて,ビデオ符号器を訓練して,より多くの地域コンテンツと時間的ダイナミックスを捉えることができる。質問と回答の形で,局所ビデオテキスト特徴間の意味的関連性を,適切に確立することができた。ブリッジ成形機は,下流検索のために除去することができ,2つの符号器だけを有する効率的で柔軟なモデルをレンダリングする。提案手法は,異なる実験装置(すなわち,ゼロショットおよび微調整)を有する5つのデータセットにおける一般的なテキスト対ビデオ検索タスクに関する最先端手法よりも性能が優れており,HowTo100M(1百万ビデオ)を含む。さらに,ビデオツーテキスト検索としてキャストできるゼロショット動作認識を行い,また,提案アプローチは,その対応物を大幅に凌駕する。付加的な利点として,この方法は,単一モダリティ下流タスク,例えば線形評価による行動認識において,はるかに短い予訓練ビデオとの競合結果を達成した。【JST・京大機械翻訳】