知識ベース視覚質問応答のためのクロスモーダル知識推論【JST・京大機械翻訳】

Yu Jing; Yu Jing; Zhu Zihao; Zhu Zihao; Wang Yujing; Wang Yujing; Zhang Weifeng; Hu Yue; Hu Yue; Tan Jianlong; Tan Jianlong

文献

J-GLOBAL ID：202002239935724590 整理番号：20A1918561

知識ベース視覚質問応答のためのクロスモーダル知識推論【JST・京大機械翻訳】

Cross-modal knowledge reasoning for knowledge-based visual question answering

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=20A1918561&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=20A1918561&from=J-GLOBAL&jstjournalNo=D0611A") }}

著者 (11件)： , , , , , , , , , ,
資料名：
巻： 108 ページ： Null 発行年： 2020年
JST資料番号： D0611A ISSN： 0031-3203 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：オランダ (NLD) 言語：英語 (EN)

知識ベースの視覚質問(KVQA)は,画像に関する質問に答えるために,可視コンテンツを超える外部知識を必要とする。この能力は,一般的VQAを達成するためには挑戦的であるが不可欠である。既存のKVQA解法の1つの限界は,それらが,細粒選択なしですべての種類の情報を共同で埋め込むことであり,それは正しい答えを推論するための予想外のノイズを導入する。質問指向および情報相補的証拠をいかに捉えるかは,その問題を解決するための重要な課題のままである。本論文では,人間の認知理論に触発されて,視覚,意味および事実の視点から複数の知識グラフによって画像を示した。その中で,視覚グラフと意味グラフを,実際のグラフの画像条件付インスタント化と見なした。これらの新しい表現のトップでは,マルチモーダル情報から補完的証拠を得るための再帰推論プロセスとして知識ベースVisual Quession Answeringを再定式化した。この目的のために,このモデルを,視覚および意味情報の両者で並列推論を行うグラフベースRead,Updateおよび制御(GRUC)モジュールによりそれぞれ実行される一連のメモリベース推論ステップに分解した。モジュールを複数回積層することによって,著者らのモデルは推移的推論を実行して,種々の様式の制約の下で質問指向概念表現を得る。最後に,グラフニューラルネットワークを実行して,すべての概念を一緒に考慮することによって,グローバル最適回答を推論する。FVQA,Visual7W-KBおよびOK-VQAを含む3つの一般的なベンチマークデータセット上で新しい最先端の性能を達成し,広範な実験で著者らのモデルの有効性と解釈可能性を実証した。ソースコードは,https://github.com/astro-zihao/grucで利用可能である。Copyright 2020 Elsevier B.V., Amsterdam. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , , , ,
, , , 【Automatic Indexing@JST】

著者キーワード (5件)： , , , ,

図形・画像処理一般 , パターン認識

, , ,

前のページに戻る