視覚質問応答のためのグラフ表現【Powered by NICT】

Teney Damien; Liu Lingqiao; Hengel Anton van den

文献

J-GLOBAL ID：201702276589041726 整理番号：17A1773202

視覚質問応答のためのグラフ表現【Powered by NICT】

Graph-Structured Representations for Visual Question Answering

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=17A1773202&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=17A1773202&from=J-GLOBAL&jstjournalNo=W2441A") }}

著者 (3件)： , ,
資料名：
巻： 2017 号： CVPR ページ： 3233-3241 発行年： 2017年
JST資料番号： W2441A 資料種別：会議録 (C)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

本論文では,シーンの内容と問題の構造化表現と視覚的質問応答(VQA)を改善することを提案した。VQAにおける重要な課題は,視覚とテキスト領域上の関節推論を必要とすることである。VQAへの支配的CNN/LSTMベースアプローチは,そのシーンの中の,問題の構造を無視していることをモノリシックベクトル表現によって制限される。CNN特徴ベクトルを複数の物体の例として簡単な状況を効果的に捉えることができず,LSTMsプロセスは一連の言語構造の真の複雑性を反映していないとして問題。代わりにシーン物体上の,質問語の上で,グラフを構築することを提案し,これらの表現の構造を利用した深層ニューラルネットワークを記述した。は,このアプローチが最新技術を超えて有意な改善を達成し,同じ質問に対するバランスのとれたシーン,すなわち細粒差と反対yes/no回答による画像の対以上の精度における多項選択式ベンチマーク抽象シーンに対する精度34.7%から39.1%まで精度を71.2%から74.4%にことを示した。Copyright 2017 The Institute of Electrical and Electronics Engineers, Inc. All Rights reserved. Translated from English into Japanese by JST【Powered by NICT】

, , , , , ,
, , , 【Automatic Indexing@JST】

パターン認識 , 図形・画像処理一般

, ,

前のページに戻る