抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
画像のビジュアルコンテンツと疑問のテキストコンテンツの両方の同時理解を必要とするので,視覚質問応答(VQA)は挑戦的である。細粒方法と疑問の画像と疑問を表現し,これらの多様な特徴を融合するために使用される方法は性能において重要な役割を果たしている。双線形プーリングベースモデルは,VQAのための伝統的な線形モデルより性能が優れていることが示されているが,それらの高次元表現と高い計算複雑性は実際にそれらの適用性を著しく制約している可能性がある。マルチモーダル特徴融合のために,ここでは,マルチモーダル特徴,他の双線形プーリング手法と比較してVQAの優れた性能をもたらすを効率的かつ効果的にマルチモーダル因数分解双線形(MFB)プール法を開発した。細粒画像と質問表現のために,筆者らは協同で,画像と質問の留意点の両方を学習するためにエンドツーエンド深いネットワークアーキテクチャを用いた「Co注意」機構を開発した。提案MFB手法の組合わせ新しいネットワークアーキテクチャにおけるCo注意学習を用いたVQAの統一モデルを提供する。著者らの実験結果は,共注意モデルを持つ単一MFBは実世界VQAデータセットに新しい状態のtheart性能を達成することを示した。コードhttps://github.com/yuzcccc/mfbで利用可能である。Copyright 2018 The Institute of Electrical and Electronics Engineers, Inc. All Rights reserved. Translated from English into Japanese by JST【Powered by NICT】