プレプリント
J-GLOBAL ID:202202218205612904   整理番号:22P0278328

テキストからビデオへの検索のための読字戦略にヒントを得た視覚的表現学習【JST・京大機械翻訳】

Reading-strategy Inspired Visual Representation Learning for Text-to-Video Retrieval
著者 (7件):
資料名:
発行年: 2022年01月22日  プレプリントサーバーでの情報更新日: 2022年03月03日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
※このプレプリント論文は学術誌に掲載済みです。なお、学術誌掲載の際には一部内容が変更されている可能性があります。
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本論文では,テキスト対ビデオ検索のタスクを狙いとし,そこでは,自然言語文の形式で質問を与え,多数のラベルなしビデオから,与えられたクエリに意味的に関連するビデオを検索することを依頼した。このタスクの成功は,セマンティック類似性計算のための共通空間にビデオと文章の両方を投影するクロスモーダル表現学習に依存する。本研究では,テキスト対ビデオ検索のための必須コンポーネントであるビデオ表現学習に焦点を当てた。ヒトの読解戦略に触発されて,著者らは,2つの枝から成るビデオを表現するために,読取り戦略にヒントを得た視覚表現学習(RIVRL)を提案する。ビデオの概観情報を手短に捉えるために,予見分岐を設計し,一方,集中読取枝を,より詳細な情報を得るために設計した。さらに,集中読取りブランチは,プレビューニングブランチによって捕捉されたビデオ概観に気づいている。このような全体的情報は,より細粒の特徴を抽出するための集約的読取枝にとって有用であることが分かった。モデルRIVRLがTGIFとVATEXの新しい最先端技術を達成する3つのデータセットに関する広範な実験を行った。さらに,MSR-VTT上で,2つのビデオ特徴を用いた著者らのモデルは,7つのビデオ特徴を用いた最先端技術に匹敵する性能を示し,大規模HowTo100Mデータセット上で事前訓練されたモデルよりも性能が優れていた。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (3件):
分類
JSTが定めた文献の分類名称とコードです
人工知能  ,  パターン認識  ,  図形・画像処理一般 

前のページに戻る