プレプリント
J-GLOBAL ID:202202207464529649   整理番号:22P0332825

マルチモーダルクロス量子化器による無条件画像-テキスト対生成【JST・京大機械翻訳】

Unconditional Image-Text Pair Generation with Multimodal Cross Quantizer
著者 (4件):
資料名:
発行年: 2022年04月15日  プレプリントサーバーでの情報更新日: 2022年10月14日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
深層生成モデルは多くの注目を集めているが,既存の研究の多くは単峰性生成のために設計されている。本論文では,無条件画像テキスト対生成のための新しい方法を検討した。関節画像テキスト表現用の新しいベクトル量子化器であるマルチモーダル交差量子化VAE(MXQ-VAE)を設計し,ここでは,関節画像テキスト表現空間が意味的に一貫した画像テキスト対生成に有効であることを見出した。量子化空間におけるマルチモーダル意味相関を学習するために,VQ-VAEを変換符号器と組合せ,入力マスキング戦略を適用した。特に,MXQ-VAEは,入力としてマスクされた画像テキストペアを受け入れ,量子化された結合表現空間を学習するので,入力を統一コードシーケンスに変換することができ,次に,コードシーケンスで無条件画像テキストペア生成を実行する。大規模な実験は,合成および実世界データセットに関する量子化された関節空間とマルチモーダル生成能力の間の相関を示した。さらに,これらの2つの側面において,いくつかの基準線に対して提案アプローチの優位性を示した。ソースコードは,https://github.com/ttumyche/MXQ VAEで公開可能である。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
図形・画像処理一般  ,  人工知能 
タイトルに関連する用語 (2件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る