WuDaoMM:プレトレーニングモデルのための大規模マルチモーダルデータセット【JST・京大機械翻訳】

Yuan Sha; Zhao Shuai; Leng Jiahong; Xue Zhao; Zhao Hanyu; Liu Peiyu; Gong Zheng; Zhao Wayne Xin; Li Junyi; Tang Jie

プレプリント

J-GLOBAL ID：202202209079842525 整理番号：22P0308130

WuDaoMM:プレトレーニングモデルのための大規模マルチモーダルデータセット【JST・京大機械翻訳】

WuDaoMM: A large-scale Multi-Modal Dataset for Pre-training models

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (10件)： , , , , , , , , ,
資料名：
発行年： 2022年03月22日プレプリントサーバーでの情報更新日： 2022年04月30日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

ドメイン特異的モデルと比較して,ビジョン言語予訓練モデル(VLPMs)は,高速微調整プロセスによる下流タスクに対して優れた性能を示した。例えば,ERNIE-ViL,OscarおよびUNIMOは,均一変圧器スタックアーキテクチャおよび大量の画像テキスト対データを有するVLPMsを訓練し,訓練フェーズの間,画像テキスト参照(IRおよびTR),視覚質問応答(VQA)および画像キャプティング(IC)などの下流タスクに関する顕著な結果を達成し,VLPMsは,大規模ケア訓練データの要求を満たすために,複数の公開データセットの組み合わせで常に供給した。”VLPM”は,訓練フェーズにおいて,常に複数の公共データセットの組み合わせで供給されている。”VLPM”は,訓練フェーズにおいて,画像-テキスト参照(IRおよびTR),視覚質問応答(VQA)および画像キャプテーション(IC)などの下流タスクに関する顕著な結果を達成した。しかし,サイズ,タスクタイプ,および品質を含むデータ分布の不均等性のため,モデル訓練のための多重データセットの混合物を用いることは問題となる。本研究では,650M以上の画像テキスト対を含む,WuDaoMMと名付けた大規模マルチモーダルコーパスを導入した。特に,画像とキャプションが弱い相関を示す多重Webページから約600百万対のデータを収集し,他の5百万の強関連画像テキスト対をいくつかの高品質グラフィックウェブサイトから収集する。また,5百万の強相関画像-テキスト対を有するWuDaoMMのベースバージョンを解放し,それは共通交差モードモデル予訓練をサポートするのに十分であった。さらに,データセットの有効性を試験するために,理解と生成ビジョン言語(VL)モデルの両方を訓練した。結果は,WuDaoMMが,特にテキストツーイメージ生成タスクにおけるモデルのために,VLPMsのための効率的データセットとして適用できることを示した。データはhttps://data.wudaoai.cnで放出される。【JST・京大機械翻訳】

, , , , , , , , ,
, , , , , , 【Automatic Indexing@JST】

パターン認識 , 図形・画像処理一般

, ,

前のページに戻る