テキストからビデオへの検索のための読字戦略にヒントを得た視覚的表現学習【JST・京大機械翻訳】

Dong Jianfeng; Wang Yabing; Chen Xianke; Qu Xiaoye; Li Xirong; He Yuan; Wang Xun

プレプリント

J-GLOBAL ID：202202218205612904 整理番号：22P0278328

テキストからビデオへの検索のための読字戦略にヒントを得た視覚的表現学習【JST・京大機械翻訳】

Reading-strategy Inspired Visual Representation Learning for Text-to-Video Retrieval

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (7件)： , , , , , ,
資料名：
発行年： 2022年01月22日プレプリントサーバーでの情報更新日： 2022年03月03日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

※このプレプリント論文は学術誌に掲載済みです。なお、学術誌掲載の際には一部内容が変更されている可能性があります。

本論文では,テキスト対ビデオ検索のタスクを狙いとし,そこでは,自然言語文の形式で質問を与え,多数のラベルなしビデオから,与えられたクエリに意味的に関連するビデオを検索することを依頼した。このタスクの成功は,セマンティック類似性計算のための共通空間にビデオと文章の両方を投影するクロスモーダル表現学習に依存する。本研究では,テキスト対ビデオ検索のための必須コンポーネントであるビデオ表現学習に焦点を当てた。ヒトの読解戦略に触発されて,著者らは,2つの枝から成るビデオを表現するために,読取り戦略にヒントを得た視覚表現学習(RIVRL)を提案する。ビデオの概観情報を手短に捉えるために,予見分岐を設計し,一方,集中読取枝を,より詳細な情報を得るために設計した。さらに,集中読取りブランチは,プレビューニングブランチによって捕捉されたビデオ概観に気づいている。このような全体的情報は,より細粒の特徴を抽出するための集約的読取枝にとって有用であることが分かった。モデルRIVRLがTGIFとVATEXの新しい最先端技術を達成する3つのデータセットに関する広範な実験を行った。さらに,MSR-VTT上で,2つのビデオ特徴を用いた著者らのモデルは,7つのビデオ特徴を用いた最先端技術に匹敵する性能を示し,大規模HowTo100Mデータセット上で事前訓練されたモデルよりも性能が優れていた。【JST・京大機械翻訳】

, , , , , , , , ,
, , , , , , 【Automatic Indexing@JST】

人工知能 , パターン認識 , 図形・画像処理一般

, , , , ,

前のページに戻る