抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
ユーザ誘導入力からの対話型画像合成は,ユーザが,容易に生成された画像のシーン構造を制御することを望むとき,挑戦的なタスクである。レイアウトベース画像合成手法に関して顕著な進歩がなされてきたが,対話型シーンにおける現実的偽画像を得るためには,既存の方法は高精度入力を必要とし,それはおそらく数倍の調整を必要として,初心者ユーザにとっては好ましかった。バウンディングボックスの配置が摂動を受けるとき,レイアウトベースのモデルは,構築した意味レイアウトにおける「ミッシング領域」と,生成された画像における望ましくないアーチファクトに悩まされる。本研究では,この課題に取り組むために,Panog Layout Generative Adversarial Network(PLGAN)を提案する。PLGANは,非晶境界との物体カテゴリーを区別した,そして, stuffとインスタンスのレイアウトが,分離枝を通して構築され,そして,次に,パン光学レイアウトに融合するような,明確な形状を有する「things」の間のオブジェクトカテゴリーを区別する,パノ光学理論を使用する。特に,スタッフレイアウトは,非晶質形状をとり,インスタンスレイアウトによって残された欠損領域を埋めることができる。PLGANを,COCO-Stuff,Visual Genome,および景観データセットに関する最先端のレイアウトベースモデルと実験的に比較した。PLGANの利点は,視覚的に実証されているが,開始スコア,Fr’echet開始距離,分類精度スコア,およびカバレッジに関して定量的に検証された。【JST・京大機械翻訳】