テキストから画像への合成のためのモダリティ非もつれ弁別器【JST・京大機械翻訳】

Feng Fangxiang; Niu Tianrui; Li Ruifan; Wang Xiaojie

文献

J-GLOBAL ID：202202248654074954 整理番号：22A1086140

テキストから画像への合成のためのモダリティ非もつれ弁別器【JST・京大機械翻訳】

Modality Disentangled Discriminator for Text-to-Image Synthesis

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=22A1086140&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=22A1086140&from=J-GLOBAL&jstjournalNo=W1116A") }}

著者 (4件)： , , ,
資料名：
巻： 24 ページ： 2112-2124 発行年： 2022年
JST資料番号： W1116A ISSN： 1520-9210 CODEN： ITMUF8 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

Text-to-Image(T2I)合成は,テキスト記述から光現実的画像を生成することを目指し,それは特に,視覚と言語を橋渡しする際に重要なタスクである。各生成画像は,テキストに関係するコンテンツ部分とテキストに無関係なスタイル部分の二つの部分から成る。既存の識別器は,コンテンツ部分とスタイル部分の間で区別しない。これは,コンテンツ部分を効果的に生成することからT2I合成モデルを除外するだけでなく,生成された画像のスタイルを操作するのを困難にする。本論文では,特定の層においてコンテンツ部分とスタイル部分を区別するモダリティディレント角弁別器を提案した。特に,著者らは,2つの損失を通してもつれた表現抽出器になるために,識別器においてある数の初期層を強制する。コンテンツ部分に対する抽出された共通表現は,テキスト画像相関を捕えるために識別子をより効果的にできるが,一方,スタイル部分に対する抽出したモダリティ特異的表現は,他の画像に直接転送できる。これら2つの表現の組合せは,生成された画像の品質も改善できる。提案した識別器を用いて,代表的モデルAttnGANとSOTAモデルDM-GANの各段階の弁別器を置換した。T2I合成タスクに対して,CUB,Oxford-102,およびCOCOの3つの広く使用されたデータセットについて,広範な実験を行い,ベースモデル上のモダリティ分割弁別器の優れた性能を実証した。DM-GANのコードは,https://github.com/FangxiangFeng/DM-GAN-MDDで利用できる。Copyright 2022 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , , , ,
, , , , 【Automatic Indexing@JST】

パターン認識 , 図形・画像処理一般

前のページに戻る