属性と外部知識に基づく画像取得と視覚質問応答【JST・京大機械翻訳】

Wu Qi; Shen Chunhua; Wang Peng; Dick Anthony; van den Hengel Anton

文献

J-GLOBAL ID：201802241722863110 整理番号：18A0858755

属性と外部知識に基づく画像取得と視覚質問応答【JST・京大機械翻訳】

Image Captioning and Visual Question Answering Based on Attributes and External Knowledge

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=18A0858755&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=18A0858755&from=J-GLOBAL&jstjournalNo=B0519B") }}

著者 (5件)： , , , ,
資料名：
巻： 40 号： 6 ページ： 1367-1381 発行年： 2018年
JST資料番号： B0519B ISSN： 0162-8828 CODEN： ITPIDJ 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

視覚-言語問題における最近の進歩の多くは,畳込みニューラルネットワーク(CNN)と再帰ニューラルネットワーク(RNNs)の組合せにより達成されている。この手法は,高レベル意味概念を明示的に表現しないが,画像特徴からテキストへ直接的に進展することを探索する。本論文では,最初に,高レベル概念を成功したCNN-RNNアプローチに組み込む方法を提案し,それが画像捕捉と視覚的質問応答の両方における最先端技術に関する著しい改善を達成することを示した。さらに,同じ機構を用いて外部知識を組み込むことができることを示した。これは高レベルの視覚的質問に答えるために非常に重要である。具体的には,広い範囲の画像ベースの質問に答えるために,画像のコンテンツの内部表現を一般的な知識ベースから抽出された情報と組み合わせた視覚的質問応答モデルを設計した。特に,画像のみが適切な回答を選択するために必要な情報を含まないように質問することを可能にする。著者らの最終的モデルは,いくつかの主要なベンチマークデータセットに関する画像捕捉と視覚的質問応答の両方に関して,最良の報告結果を達成した。Copyright 2018 The Institute of Electrical and Electronics Engineers, Inc. All Rights reserved. Translated from English into Japanese by JST【JST・京大機械翻訳】

, , , , , , ,
, , , , 【Automatic Indexing@JST】

パターン認識 , 図形・画像処理一般

, , , ,

前のページに戻る