文献
J-GLOBAL ID:202102240024053721   整理番号:21A0992331

視覚質問応答のためのマルチモダリティグローバル融合注意ネットワーク【JST・京大機械翻訳】

Multi-Modality Global Fusion Attention Network for Visual Question Answering
著者 (4件):
資料名:
巻:号: 11  ページ: 1882  発行年: 2020年 
JST資料番号: U7178A  ISSN: 2079-9292  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: スイス (CHE)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
視覚質問回答(VQA)は,正しい回答を予測する視覚推論とともに,質問と画像の高レベル理解を必要とする。したがって,質問におけるキーワードを持つ画像におけるキー領域を結合するための効果的な注意モデルを設計することが重要である。現在まで,ほとんどの注意ベース手法は,質問における画像と単語における個々の領域間の関係をモデル化するだけである。VQAに対する正しい回答を予測するのは,人間が常にグローバル情報に関して,局所情報だけでなく,常に考えるので,十分ではない。本論文では,大域的視点から情報を捉えることができる,積層グローバル融合注意(GFA)ブロックから成る新しいマルチモダリティグローバル融合注意ネットワーク(MGAN)を提案した。提案手法は,それらを個別に計算することよりも,同時に,共注意と自己注意を計算する。2つの最も一般的に使用されるベンチマーク,VQA-v2データセットに対して,提案した方法を検証した。実験結果は,提案方法が以前の最先端技術より優れていることを示した。著者らの最良の単一モデルは,VQA-v2のテスト-デvセットに関して70.67%の精度を達成した。Copyright 2021 The Author(s) All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
図形・画像処理一般 
引用文献 (39件):
  • Krizhevsky, A.; Sutskever, I.; Hinton, G.E. Imagenet classification with deep convolutional neural networks. In Advances in Neural Information Processing Systems; MIT Press: Wayne, PA, USA, 2012; pp. 1097-1105.
  • He, K.; Zhang, X.; Ren, S.; Sun, J. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification. In Proceedings of the IEEE International Conference on Computer Vision, Santiago, Chile, 7-13 December 2015; pp. 1026-1034.
  • Liu, W.; Anguelov, D.; Erhan, D.; Szegedy, C.; Reed, S.; Fu, C.Y.; Berg, A.C. SSD: Single shot multibox detector. In Proceedings of the European Conference on Computer Vision, Graz, Austria, 7-13 May 2016; pp. 21-37.
  • Law, H.; Deng, J. Cornernet: Detecting objects as paired keypoints. In Proceedings of the European Conference on Computer Vision, Munich, Germany, 8-14 September 2018; pp. 734-750.
  • Hermann, K.M.; Kocisky, T.; Grefenstette, E.; Espeholt, L.; Kay, W.; Suleyman, M.; Blunsom, P. Teaching machines to read and comprehend. In Advances in Neural Information Processing Systems; MIT Press: Wayne, PA, USA, 2015; pp. 1693-1701.
もっと見る
タイトルに関連する用語 (4件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る