パノラマレイアウト生成による対話型画像合成【JST・京大機械翻訳】

Wang Bo; Wu Tao; Zhu Minfeng; Du Peng

プレプリント

J-GLOBAL ID：202202213409984736 整理番号：22P0298754

パノラマレイアウト生成による対話型画像合成【JST・京大機械翻訳】

Interactive Image Synthesis with Panoptic Layout Generation

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (4件)： , , ,
資料名：
発行年： 2022年03月03日プレプリントサーバーでの情報更新日： 2022年03月28日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

ユーザ誘導入力からの対話型画像合成は,ユーザが,容易に生成された画像のシーン構造を制御することを望むとき,挑戦的なタスクである。レイアウトベース画像合成手法に関して顕著な進歩がなされてきたが,対話型シーンにおける現実的偽画像を得るためには,既存の方法は高精度入力を必要とし,それはおそらく数倍の調整を必要として,初心者ユーザにとっては好ましかった。バウンディングボックスの配置が摂動を受けるとき,レイアウトベースのモデルは,構築した意味レイアウトにおける「ミッシング領域」と,生成された画像における望ましくないアーチファクトに悩まされる。本研究では,この課題に取り組むために,Panog Layout Generative Adversarial Network(PLGAN)を提案する。PLGANは,非晶境界との物体カテゴリーを区別した,そして, stuffとインスタンスのレイアウトが,分離枝を通して構築され,そして,次に,パン光学レイアウトに融合するような,明確な形状を有する「things」の間のオブジェクトカテゴリーを区別する,パノ光学理論を使用する。特に,スタッフレイアウトは,非晶質形状をとり,インスタンスレイアウトによって残された欠損領域を埋めることができる。PLGANを,COCO-Stuff,Visual Genome,および景観データセットに関する最先端のレイアウトベースモデルと実験的に比較した。PLGANの利点は,視覚的に実証されているが,開始スコア,Fr’echet開始距離,分類精度スコア,およびカバレッジに関して定量的に検証された。【JST・京大機械翻訳】

, , , , , , , ,
, , , , 【Automatic Indexing@JST】

図形・画像処理一般

前のページに戻る