プレプリント
J-GLOBAL ID:202202204212336601   整理番号:22P0197898

VICTR:テキストから画像へのマルチモーダルタスクのための視覚的情報捕捉テキスト表現【JST・京大機械翻訳】

VICTR: Visual Information Captured Text Representation for Text-to-Image Multimodal Tasks
著者 (5件):
資料名:
発行年: 2020年10月07日  プレプリントサーバーでの情報更新日: 2020年10月25日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
テキスト記述からイメージを生成/検索するテキストツーイメージマルチモーダルタスクは,生のテキスト記述が視覚的に現実的な画像を完全に記述するために非常に限られた情報をカバーするので,極めて挑戦的なタスクである。テキスト入力からオブジェクトの豊富な視覚意味情報を捉えるテキスト対画像マルチモーダルタスク,VICTRのための新しい視覚文脈テキスト表現を提案した。最初に,テキスト記述を初期入力として用いて,構文的構造を抽出し,オブジェクト量を含む意味的側面を分析し,シーングラフを抽出する。次に,抽出したオブジェクト,属性,およびシーングラフと対応する幾何学的関係情報をグラフ畳込みネットワークを用いて訓練し,テキストと視覚の意味情報を統合するテキスト表現を生成する。テキスト表現は,視覚文脈単語と文章表現の両方を生成するために,単語レベルと文章レベル埋込みで集約される。評価のために,VICTRをテキストツーイメージ生成の最先端モデルに結合した。VICTRは,既存のモデルに容易に追加され,定量的および定性的側面の両方にわたって改善される。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (3件):
分類
JSTが定めた文献の分類名称とコードです
図形・画像処理一般  ,  パターン認識  ,  人工知能 
タイトルに関連する用語 (3件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る