MUREL:視覚質問応答のためのマルチモーダル関係推論【JST・京大機械翻訳】

Cadene Remi; Ben-younes Hedi; Cord Matthieu; Thome Nicolas

文献

J-GLOBAL ID：202002232844726516 整理番号：20A0267689

MUREL:視覚質問応答のためのマルチモーダル関係推論【JST・京大機械翻訳】

MUREL: Multimodal Relational Reasoning for Visual Question Answering

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=20A0267689&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=20A0267689&from=J-GLOBAL&jstjournalNo=W2441A") }}

著者 (4件)： , , ,
資料名：
巻： 2019 号： CVPR ページ： 1989-1998 発行年： 2019年
JST資料番号： W2441A 資料種別：会議録 (C)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

多モード注意ネットワークは,現在,実画像を含む視覚的量子化(VQA)タスクのための最先端のモデルである。注意は,質問に関連する視覚コンテンツに焦点を当てることができるが,この単純な機構は,VQAや他の高水準タスクに必要な複雑な推論特徴をモデル化するのに十分に不十分である。本論文では,実際の画像上で,エンドツーエンドに学習された多モード関係ネットワークであるMuRelを提案する。著者らの第一の貢献は,豊富なベクトル表現による質問と画像領域の間の相互作用を表現する原子推論プリミティブであるMuRelセルの導入であり,対の組合せによる領域関係をモデル化することである。第二に,著者らは完全なMuRelネットワークにセルを組み込んだ。それは次第に視覚と質問の相互作用を精密化して,単なる注意マップより細かい可視化方式を定義するために活用することができた。このアプローチと種々のアブレーション研究との関連性を検証し,3つのデータセット:VQA2.0,VQA-CP v2およびTDIUCに対する注意に基づく方法に対する優位性を示した。著者らの最終的なMuRelネットワークは,この挑戦的な文脈において,最先端の結果と競争力があるか,または性能が優れ著者らのコードは利用可能である:github.com/Caden/murel.ブートストラップ。Copyright 2020 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , , , , , , , , ,

遺伝子発現 , 分子・遺伝情報処理 , 図形・画像処理一般 , 移動通信 , パターン認識

, , ,

前のページに戻る