Wukong:100万の大規模な中国のクロスモーダル予トレーニングベンチマーク【JST・京大機械翻訳】

Gu Jiaxi; Meng Xiaojun; Lu Guansong; Hou Lu; Niu Minzhe; Liang Xiaodan; Yao Lewei; Huang Runhui; Zhang Wei; Jiang Xin; Xu Chunjing; Xu Hang

プレプリント

J-GLOBAL ID：202202220672921826 整理番号：22P0289379

Wukong:100万の大規模な中国のクロスモーダル予トレーニングベンチマーク【JST・京大機械翻訳】

Wukong: A 100 Million Large-scale Chinese Cross-modal Pre-training Benchmark

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (12件)： , , , , , , , , , , ,
資料名：
発行年： 2022年02月14日プレプリントサーバーでの情報更新日： 2022年09月28日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

ビジョン-言語プレトレーニング(VLP)モデルは,様々な下流タスクに対して顕著な性能を示した。それらの成功は,予め訓練されたクロスモーダルデータセットの規模に大きく依存する。しかし,中国の大規模データセットとベンチマークの欠如は,中国のVLPモデルとより広い多言語アプリケーションの開発を妨げる。本研究では,Webから収集された100百万の中国語画像テキストペアを含む,Wukongと名付けた大規模中国語クロスモーダルデータセットを解放した。Wukongは,VLP研究およびコミュニティ開発を容易にするために,異なるマルチモーダル予訓練方法をベンチマークすることを目的とする。さらに,様々な画像符号器(ViT-B/ViT-L/SwinT)で事前訓練されたモデルグループを解放し,また,ロック画像テキストチューニング,コントラスト学習におけるトークンワイズ類似性,および縮小トークンインタラクションのようなVLPに高度な事前訓練技術を適用した。大規模な実験および新しい最大人間検証画像テキスト試験データセットを含む異なる下流タスクのベンチマークも提供した。実験は,Wukongが有望な中国の予訓練データセットと種々のクロスモーダル学習法のためのベンチマークとして役立つことを示した。10データセットのゼロショット画像分類タスクに対して,Wukong_ViT-Lは平均精度73.03%を達成した。画像テキスト検索タスクでは,AIC-ICCで71.6%の平均想起を達成し,WenLan2.0より12.9%高い。また,著者らのWukongモデルを,複数のデータセット,例えばFlickr8K-CN,Flickr-30K-CN,COCO-CN,などに関する他の変異体による下流タスクに関してベンチマークした。より多くの情報をhttps://wukong dataset.github.io/wukong dataset/に参照できる。【JST・京大機械翻訳】

, , , , , , , , , , ,
, , , 【Automatic Indexing@JST】

図形・画像処理一般 , パターン認識

, , ,

前のページに戻る