文献
J-GLOBAL ID:202002239935724590   整理番号:20A1918561

知識ベース視覚質問応答のためのクロスモーダル知識推論【JST・京大機械翻訳】

Cross-modal knowledge reasoning for knowledge-based visual question answering
著者 (11件):
資料名:
巻: 108  ページ: Null  発行年: 2020年 
JST資料番号: D0611A  ISSN: 0031-3203  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: オランダ (NLD)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
知識ベースの視覚質問(KVQA)は,画像に関する質問に答えるために,可視コンテンツを超える外部知識を必要とする。この能力は,一般的VQAを達成するためには挑戦的であるが不可欠である。既存のKVQA解法の1つの限界は,それらが,細粒選択なしですべての種類の情報を共同で埋め込むことであり,それは正しい答えを推論するための予想外のノイズを導入する。質問指向および情報相補的証拠をいかに捉えるかは,その問題を解決するための重要な課題のままである。本論文では,人間の認知理論に触発されて,視覚,意味および事実の視点から複数の知識グラフによって画像を示した。その中で,視覚グラフと意味グラフを,実際のグラフの画像条件付インスタント化と見なした。これらの新しい表現のトップでは,マルチモーダル情報から補完的証拠を得るための再帰推論プロセスとして知識ベースVisual Quession Answeringを再定式化した。この目的のために,このモデルを,視覚および意味情報の両者で並列推論を行うグラフベースRead,Updateおよび制御(GRUC)モジュールによりそれぞれ実行される一連のメモリベース推論ステップに分解した。モジュールを複数回積層することによって,著者らのモデルは推移的推論を実行して,種々の様式の制約の下で質問指向概念表現を得る。最後に,グラフニューラルネットワークを実行して,すべての概念を一緒に考慮することによって,グローバル最適回答を推論する。FVQA,Visual7W-KBおよびOK-VQAを含む3つの一般的なベンチマークデータセット上で新しい最先端の性能を達成し,広範な実験で著者らのモデルの有効性と解釈可能性を実証した。ソースコードは,https://github.com/astro-zihao/grucで利用可能である。Copyright 2020 Elsevier B.V., Amsterdam. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
図形・画像処理一般  ,  パターン認識 
タイトルに関連する用語 (4件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る