文献
J-GLOBAL ID:201802280118026957   整理番号:18A2163623

双線形を超えて:視覚質問応答のための一般化マルチモーダル因数分解高次プーリング【JST・京大機械翻訳】

Beyond Bilinear: Generalized Multimodal Factorized High-Order Pooling for Visual Question Answering
著者 (5件):
資料名:
巻: 29  号: 12  ページ: 5947-5959  発行年: 2018年 
JST資料番号: T0881A  ISSN: 2162-237X  CODEN: ITNNEP  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
視覚的質問応答(VQA)は,画像の視覚コンテンツと質問のテキストコンテンツの両方の同時理解を必要とするので,挑戦的である。VQAタスクを支援するために,次の3つの問題に対する良い解を見出す必要がある。1)画像と質問の両方に対する細粒特徴表現;2)多モード特徴間の複雑な相互作用を捉えることができる多モード特徴融合;そして,3)同じ質問に対する複数の多様な回答の間の複雑な相関を考慮することができる自動回答予測。細粒画像と質問表現のために,「共注意」機構を,画像と質問の両方に対する注意を共同的に学習するために,深いニューラルネットワーク(DNN)アーキテクチャを用いて開発し,画像と質問表現のためのより識別的な特徴を得た。多モード特徴融合のために,一般化多モード因子化高次プール法(MFH)を開発し,それらの相関を十分に利用することにより,より高速な収束速度を達成し,より優れた性能を得るために,DNNアーキテクチャを設計し,優れたVQA性能を達成するために,これらすべてのモジュールを統合した。著者らのMFHモデルの集合により,大規模VQAデータセットに関する最先端の性能を達成し,VQA Challenge2017におけるランナーアップを行った。Copyright 2018 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識  ,  図形・画像処理一般 

前のページに戻る