教師付きクロスモーダル検索のための視覚言語予訓練モデルの包括的経験的研究【JST・京大機械翻訳】

Zeng Zhixiong; Mao Wenji

プレプリント

J-GLOBAL ID：202202205674188744 整理番号：22P0025009

教師付きクロスモーダル検索のための視覚言語予訓練モデルの包括的経験的研究【JST・京大機械翻訳】

A Comprehensive Empirical Study of Vision-Language Pre-trained Model for Supervised Cross-Modal Retrieval

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (2件)： ,
資料名：
発行年： 2022年01月08日プレプリントサーバーでの情報更新日： 2022年04月17日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

クロスモーダル検索(CMR)は,マルチモーダルコンピューティングおよび情報検索を通して重要な研究題目であり,それは,他のタイプの関連データを検索するためのクエリとして1タイプのデータを取る。それは多くの実世界アプリケーションで広く使用されてきた。最近,CLIPにより代表されるビジョン言語事前訓練モデルは,視覚およびテキスト表現を学習し,様々な視覚および言語関連タスクにおいて印象的な性能を獲得するという優位性を示す。CLIPおよび以前の事前訓練モデルは教師なしCMRにおける大きな性能改善を示したが,教師つきCMRに対するこれらの事前訓練モデルの性能および影響は,マルチモーダルクラスレベル相関に対する共通表現の欠如のため,ほとんど探索されなかった。本論文では,包括的な経験的研究を行うために,現在の代表的ビジョン言語事前訓練モデルとしてCLIPを取り上げる。教師つきCMRに対するその性能と影響を評価し,いくつかの重要な研究質問に答えることを試みた。この目的のために,まず,教師付きCMRを実行するためのバックボーンネットワークとして事前訓練CLIPを使用する,新しいモデルCLIP4CMR(クロスモダル検索のためのCLIP強化ネットワーク)を提案した。次に,CLIP4CMRフレームワークによって,著者らは,現在のCMR方式における種々の学習目的の設計を再検討して,モデル設計に関する新しい洞察を提供する。さらに,実用的応用の新しい展望を提供するために,モダリティ不均衡に対するロバスト性とハイパーパラメータに対する感度を含むCMRの適用における最も関心のある側面を調べた。広範な実験を通して,CLIP4CMRがベンチマークデータセット上で顕著な改善でSOTA結果を達成し,モデル設計と実際的考察に重要な意味を持つ教師つきCMRの鍵となる研究課題を経験的に研究するための基本的フレームワークとして使用できることを示した。【JST・京大機械翻訳】

, , , , , , , , , , , ,
, , , 【Automatic Indexing@JST】

パターン認識 , 人工知能

, , , , , ,

前のページに戻る