CLIPモデルは少数ショット学習者である:VQAと視覚的含意に関する経験的研究【JST・京大機械翻訳】

Song Haoyu; Dong Li; Zhang Wei-Nan; Liu Ting; Wei Furu

プレプリント

J-GLOBAL ID：202202213201960175 整理番号：22P0303840

CLIPモデルは少数ショット学習者である:VQAと視覚的含意に関する経験的研究【JST・京大機械翻訳】

CLIP Models are Few-shot Learners: Empirical Studies on VQA and Visual Entailment

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (5件)： , , , ,
資料名：
発行年： 2022年03月14日プレプリントサーバーでの情報更新日： 2022年03月14日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

CLIPは広範囲のビジョンタスクに対して顕著なゼロショット能力を示した。以前に,CLIPは強力な視覚符号器と見なされるだけである。しかし,大量の画像キャプションペアからの言語監視によって事前訓練された後に,CLIP自体は,ビジョン言語タスクのためのいくつかのショット能力を獲得した。本研究では,CLIPが言語の電力を活用することにより,強いビジョン言語数ショット学習者であることを経験的に示した。最初に,典型的な視覚質問応答タスクに対するCLIPのゼロショット性能を評価し,視覚の伴うタスクに対するCLIPのゼロショットクロスモーダル転送能力を実証した。次に,vqaタスクにおける少数ショット性能を高めるためのパラメータ効率の良い微調整戦略を提案した。追加の事前訓練手順を導入することなく,視覚質問応答と視覚要求タスクに関する競合ゼロ/フェイスショット結果を達成した。【JST・京大機械翻訳】

, , , , , , ,
, , , 【Automatic Indexing@JST】

パターン認識 , 図形・画像処理一般

, , , , , ,

前のページに戻る