抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
クロスモーダル検索(CMR)は,マルチモーダルコンピューティングおよび情報検索を通して重要な研究題目であり,それは,他のタイプの関連データを検索するためのクエリとして1タイプのデータを取る。それは多くの実世界アプリケーションで広く使用されてきた。最近,CLIPにより代表されるビジョン言語事前訓練モデルは,視覚およびテキスト表現を学習し,様々な視覚および言語関連タスクにおいて印象的な性能を獲得するという優位性を示す。CLIPおよび以前の事前訓練モデルは教師なしCMRにおける大きな性能改善を示したが,教師つきCMRに対するこれらの事前訓練モデルの性能および影響は,マルチモーダルクラスレベル相関に対する共通表現の欠如のため,ほとんど探索されなかった。本論文では,包括的な経験的研究を行うために,現在の代表的ビジョン言語事前訓練モデルとしてCLIPを取り上げる。教師つきCMRに対するその性能と影響を評価し,いくつかの重要な研究質問に答えることを試みた。この目的のために,まず,教師付きCMRを実行するためのバックボーンネットワークとして事前訓練CLIPを使用する,新しいモデルCLIP4CMR(クロスモダル検索のためのCLIP強化ネットワーク)を提案した。次に,CLIP4CMRフレームワークによって,著者らは,現在のCMR方式における種々の学習目的の設計を再検討して,モデル設計に関する新しい洞察を提供する。さらに,実用的応用の新しい展望を提供するために,モダリティ不均衡に対するロバスト性とハイパーパラメータに対する感度を含むCMRの適用における最も関心のある側面を調べた。広範な実験を通して,CLIP4CMRがベンチマークデータセット上で顕著な改善でSOTA結果を達成し,モデル設計と実際的考察に重要な意味を持つ教師つきCMRの鍵となる研究課題を経験的に研究するための基本的フレームワークとして使用できることを示した。【JST・京大機械翻訳】