VICTR:テキストから画像へのマルチモーダルタスクのための視覚的情報捕捉テキスト表現【JST・京大機械翻訳】

Han Soyeon Caren; Long Siqu; Luo Siwen; Wang Kunze; Poon Josiah

プレプリント

J-GLOBAL ID：202202204212336601 整理番号：22P0197898

VICTR:テキストから画像へのマルチモーダルタスクのための視覚的情報捕捉テキスト表現【JST・京大機械翻訳】

VICTR: Visual Information Captured Text Representation for Text-to-Image Multimodal Tasks

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (5件)： , , , ,
資料名：
発行年： 2020年10月07日プレプリントサーバーでの情報更新日： 2020年10月25日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

テキスト記述からイメージを生成/検索するテキストツーイメージマルチモーダルタスクは,生のテキスト記述が視覚的に現実的な画像を完全に記述するために非常に限られた情報をカバーするので,極めて挑戦的なタスクである。テキスト入力からオブジェクトの豊富な視覚意味情報を捉えるテキスト対画像マルチモーダルタスク,VICTRのための新しい視覚文脈テキスト表現を提案した。最初に,テキスト記述を初期入力として用いて,構文的構造を抽出し,オブジェクト量を含む意味的側面を分析し,シーングラフを抽出する。次に,抽出したオブジェクト,属性,およびシーングラフと対応する幾何学的関係情報をグラフ畳込みネットワークを用いて訓練し,テキストと視覚の意味情報を統合するテキスト表現を生成する。テキスト表現は,視覚文脈単語と文章表現の両方を生成するために,単語レベルと文章レベル埋込みで集約される。評価のために,VICTRをテキストツーイメージ生成の最先端モデルに結合した。VICTRは,既存のモデルに容易に追加され,定量的および定性的側面の両方にわたって改善される。【JST・京大機械翻訳】

, , , , , , , , ,
, , , , , 【Automatic Indexing@JST】

図形・画像処理一般 , パターン認識 , 人工知能

, ,

前のページに戻る