プレトレーニングとコントラスト学習による画像差キャプション【JST・京大機械翻訳】

Yao Linli; Wang Weiying; Jin Qin

プレプリント

J-GLOBAL ID：202202206274359627 整理番号：22P0286910

プレトレーニングとコントラスト学習による画像差キャプション【JST・京大機械翻訳】

Image Difference Captioning with Pre-training and Contrastive Learning

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (3件)： , ,
資料名：
発行年： 2022年02月09日プレプリントサーバーでの情報更新日： 2022年02月09日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

画像差分捕捉(IDC)タスクは,自然言語による2つの類似画像間の視覚差を記述することを目的とする。この課題の主な課題は2つの側面にある。1)より強力なビジョンと言語連想を学習する必要のある細粒視差,2)限られた教師付きデータを導くマニュアル注釈の高いコスト。これらの課題に取り組むために,予訓練微調整パラダイムに従う新しいモデリングフレームワークを提案した。特に,微細粒レベルで視覚差とテキスト記述を整列させるための3つの自己監督タスクと対照的学習戦略を設計した。さらに,利用可能な教師つきIDCデータの限界を緩和するために,細粒画像分類のためのデータのような余分な交差タスク監視情報を利用するためのデータ拡張戦略を提案した。2つのIDCベンチマークデータセット,CLEVR-ChangeとBirds-to-Wordsに関する大規模な実験は,提案したモデリングフレームワークの有効性を実証した。コードとモデルはhttps://github.com/yaolinli/IDCで放出される。【JST・京大機械翻訳】

, , , , , , , , , , ,
, , , , 【Automatic Indexing@JST】

人工知能

, , ,

前のページに戻る