視覚質問応答のためのマルチモダリティグローバル融合注意ネットワーク【JST・京大機械翻訳】

Yang Cheng; Wu Weijia; Wang Yuxing; Zhou Hong

文献

J-GLOBAL ID：202102240024053721 整理番号：21A0992331

視覚質問応答のためのマルチモダリティグローバル融合注意ネットワーク【JST・京大機械翻訳】

Multi-Modality Global Fusion Attention Network for Visual Question Answering

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=21A0992331&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=21A0992331&from=J-GLOBAL&jstjournalNo=U7178A") }}

著者 (4件)： , , ,
資料名：
巻： 9 号： 11 ページ： 1882 発行年： 2020年
JST資料番号： U7178A ISSN： 2079-9292 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：スイス (CHE) 言語：英語 (EN)

視覚質問回答(VQA)は,正しい回答を予測する視覚推論とともに,質問と画像の高レベル理解を必要とする。したがって,質問におけるキーワードを持つ画像におけるキー領域を結合するための効果的な注意モデルを設計することが重要である。現在まで,ほとんどの注意ベース手法は,質問における画像と単語における個々の領域間の関係をモデル化するだけである。VQAに対する正しい回答を予測するのは,人間が常にグローバル情報に関して,局所情報だけでなく,常に考えるので,十分ではない。本論文では,大域的視点から情報を捉えることができる,積層グローバル融合注意(GFA)ブロックから成る新しいマルチモダリティグローバル融合注意ネットワーク(MGAN)を提案した。提案手法は,それらを個別に計算することよりも,同時に,共注意と自己注意を計算する。2つの最も一般的に使用されるベンチマーク,VQA-v2データセットに対して,提案した方法を検証した。実験結果は,提案方法が以前の最先端技術より優れていることを示した。著者らの最良の単一モデルは,VQA-v2のテスト-デvセットに関して70.67%の精度を達成した。Copyright 2021 The Author(s) All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , ,

著者キーワード (3件)： , ,

図形・画像処理一般

引用文献 (39件)：

Krizhevsky, A.; Sutskever, I.; Hinton, G.E. Imagenet classification with deep convolutional neural networks. In Advances in Neural Information Processing Systems; MIT Press: Wayne, PA, USA, 2012; pp. 1097-1105.
He, K.; Zhang, X.; Ren, S.; Sun, J. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification. In Proceedings of the IEEE International Conference on Computer Vision, Santiago, Chile, 7-13 December 2015; pp. 1026-1034.
Liu, W.; Anguelov, D.; Erhan, D.; Szegedy, C.; Reed, S.; Fu, C.Y.; Berg, A.C. SSD: Single shot multibox detector. In Proceedings of the European Conference on Computer Vision, Graz, Austria, 7-13 May 2016; pp. 21-37.
Law, H.; Deng, J. Cornernet: Detecting objects as paired keypoints. In Proceedings of the European Conference on Computer Vision, Munich, Germany, 8-14 September 2018; pp. 734-750.
Hermann, K.M.; Kocisky, T.; Grefenstette, E.; Espeholt, L.; Kay, W.; Suleyman, M.; Blunsom, P. Teaching machines to read and comprehend. In Advances in Neural Information Processing Systems; MIT Press: Wayne, PA, USA, 2015; pp. 1693-1701.

, , ,

前のページに戻る