マルチモーダルクロス量子化器による無条件画像-テキスト対生成【JST・京大機械翻訳】

Lee Hyungyung; Park Sungjin; Lee Joonseok; Choi Edward

プレプリント

J-GLOBAL ID：202202207464529649 整理番号：22P0332825

マルチモーダルクロス量子化器による無条件画像-テキスト対生成【JST・京大機械翻訳】

Unconditional Image-Text Pair Generation with Multimodal Cross Quantizer

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (4件)： , , ,
資料名：
発行年： 2022年04月15日プレプリントサーバーでの情報更新日： 2022年10月14日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

深層生成モデルは多くの注目を集めているが,既存の研究の多くは単峰性生成のために設計されている。本論文では,無条件画像テキスト対生成のための新しい方法を検討した。関節画像テキスト表現用の新しいベクトル量子化器であるマルチモーダル交差量子化VAE(MXQ-VAE)を設計し,ここでは,関節画像テキスト表現空間が意味的に一貫した画像テキスト対生成に有効であることを見出した。量子化空間におけるマルチモーダル意味相関を学習するために,VQ-VAEを変換符号器と組合せ,入力マスキング戦略を適用した。特に,MXQ-VAEは,入力としてマスクされた画像テキストペアを受け入れ,量子化された結合表現空間を学習するので,入力を統一コードシーケンスに変換することができ,次に,コードシーケンスで無条件画像テキストペア生成を実行する。大規模な実験は,合成および実世界データセットに関する量子化された関節空間とマルチモーダル生成能力の間の相関を示した。さらに,これらの2つの側面において,いくつかの基準線に対して提案アプローチの優位性を示した。ソースコードは,https://github.com/ttumyche/MXQ VAEで公開可能である。【JST・京大機械翻訳】

, , , , , , , , , , , ,
, , 【Automatic Indexing@JST】

図形・画像処理一般 , 人工知能

前のページに戻る