プレプリント
J-GLOBAL ID:202202205674188744   整理番号:22P0025009

教師付きクロスモーダル検索のための視覚言語予訓練モデルの包括的経験的研究【JST・京大機械翻訳】

A Comprehensive Empirical Study of Vision-Language Pre-trained Model for Supervised Cross-Modal Retrieval
著者 (2件):
資料名:
発行年: 2022年01月08日  プレプリントサーバーでの情報更新日: 2022年04月17日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
クロスモーダル検索(CMR)は,マルチモーダルコンピューティングおよび情報検索を通して重要な研究題目であり,それは,他のタイプの関連データを検索するためのクエリとして1タイプのデータを取る。それは多くの実世界アプリケーションで広く使用されてきた。最近,CLIPにより代表されるビジョン言語事前訓練モデルは,視覚およびテキスト表現を学習し,様々な視覚および言語関連タスクにおいて印象的な性能を獲得するという優位性を示す。CLIPおよび以前の事前訓練モデルは教師なしCMRにおける大きな性能改善を示したが,教師つきCMRに対するこれらの事前訓練モデルの性能および影響は,マルチモーダルクラスレベル相関に対する共通表現の欠如のため,ほとんど探索されなかった。本論文では,包括的な経験的研究を行うために,現在の代表的ビジョン言語事前訓練モデルとしてCLIPを取り上げる。教師つきCMRに対するその性能と影響を評価し,いくつかの重要な研究質問に答えることを試みた。この目的のために,まず,教師付きCMRを実行するためのバックボーンネットワークとして事前訓練CLIPを使用する,新しいモデルCLIP4CMR(クロスモダル検索のためのCLIP強化ネットワーク)を提案した。次に,CLIP4CMRフレームワークによって,著者らは,現在のCMR方式における種々の学習目的の設計を再検討して,モデル設計に関する新しい洞察を提供する。さらに,実用的応用の新しい展望を提供するために,モダリティ不均衡に対するロバスト性とハイパーパラメータに対する感度を含むCMRの適用における最も関心のある側面を調べた。広範な実験を通して,CLIP4CMRがベンチマークデータセット上で顕著な改善でSOTA結果を達成し,モデル設計と実際的考察に重要な意味を持つ教師つきCMRの鍵となる研究課題を経験的に研究するための基本的フレームワークとして使用できることを示した。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識  ,  人工知能 

前のページに戻る