文献
J-GLOBAL ID:202002232844726516   整理番号:20A0267689

MUREL:視覚質問応答のためのマルチモーダル関係推論【JST・京大機械翻訳】

MUREL: Multimodal Relational Reasoning for Visual Question Answering
著者 (4件):
資料名:
巻: 2019  号: CVPR  ページ: 1989-1998  発行年: 2019年 
JST資料番号: W2441A  資料種別: 会議録 (C)
記事区分: 原著論文  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
多モード注意ネットワークは,現在,実画像を含む視覚的量子化(VQA)タスクのための最先端のモデルである。注意は,質問に関連する視覚コンテンツに焦点を当てることができるが,この単純な機構は,VQAや他の高水準タスクに必要な複雑な推論特徴をモデル化するのに十分に不十分である。本論文では,実際の画像上で,エンドツーエンドに学習された多モード関係ネットワークであるMuRelを提案する。著者らの第一の貢献は,豊富なベクトル表現による質問と画像領域の間の相互作用を表現する原子推論プリミティブであるMuRelセルの導入であり,対の組合せによる領域関係をモデル化することである。第二に,著者らは完全なMuRelネットワークにセルを組み込んだ。それは次第に視覚と質問の相互作用を精密化して,単なる注意マップより細かい可視化方式を定義するために活用することができた。このアプローチと種々のアブレーション研究との関連性を検証し,3つのデータセット:VQA2.0,VQA-CP v2およびTDIUCに対する注意に基づく方法に対する優位性を示した。著者らの最終的なMuRelネットワークは,この挑戦的な文脈において,最先端の結果と競争力があるか,または性能が優れ著者らのコードは利用可能である:github.com/Caden/murel.ブートストラップ。Copyright 2020 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (5件):
分類
JSTが定めた文献の分類名称とコードです
遺伝子発現  ,  分子・遺伝情報処理  ,  図形・画像処理一般  ,  移動通信  ,  パターン認識 
タイトルに関連する用語 (4件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る