プレプリント
J-GLOBAL ID:202202209079842525   整理番号:22P0308130

WuDaoMM:プレトレーニングモデルのための大規模マルチモーダルデータセット【JST・京大機械翻訳】

WuDaoMM: A large-scale Multi-Modal Dataset for Pre-training models
著者 (10件):
資料名:
発行年: 2022年03月22日  プレプリントサーバーでの情報更新日: 2022年04月30日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
ドメイン特異的モデルと比較して,ビジョン言語予訓練モデル(VLPMs)は,高速微調整プロセスによる下流タスクに対して優れた性能を示した。例えば,ERNIE-ViL,OscarおよびUNIMOは,均一変圧器スタックアーキテクチャおよび大量の画像テキスト対データを有するVLPMsを訓練し,訓練フェーズの間,画像テキスト参照(IRおよびTR),視覚質問応答(VQA)および画像キャプティング(IC)などの下流タスクに関する顕著な結果を達成し,VLPMsは,大規模ケア訓練データの要求を満たすために,複数の公開データセットの組み合わせで常に供給した。”VLPM”は,訓練フェーズにおいて,常に複数の公共データセットの組み合わせで供給されている。”VLPM”は,訓練フェーズにおいて,画像-テキスト参照(IRおよびTR),視覚質問応答(VQA)および画像キャプテーション(IC)などの下流タスクに関する顕著な結果を達成した。しかし,サイズ,タスクタイプ,および品質を含むデータ分布の不均等性のため,モデル訓練のための多重データセットの混合物を用いることは問題となる。本研究では,650M以上の画像テキスト対を含む,WuDaoMMと名付けた大規模マルチモーダルコーパスを導入した。特に,画像とキャプションが弱い相関を示す多重Webページから約600百万対のデータを収集し,他の5百万の強関連画像テキスト対をいくつかの高品質グラフィックウェブサイトから収集する。また,5百万の強相関画像-テキスト対を有するWuDaoMMのベースバージョンを解放し,それは共通交差モードモデル予訓練をサポートするのに十分であった。さらに,データセットの有効性を試験するために,理解と生成ビジョン言語(VL)モデルの両方を訓練した。結果は,WuDaoMMが,特にテキストツーイメージ生成タスクにおけるモデルのために,VLPMsのための効率的データセットとして適用できることを示した。データはhttps://data.wudaoai.cnで放出される。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識  ,  図形・画像処理一般 
タイトルに関連する用語 (3件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る