マルチモーダル推論とマッチングのための二重注意ネットワーク【Powered by NICT】

Nam Hyeonseob; Ha Jung-Woo; Kim Jeonghee

文献

J-GLOBAL ID：201702238217159746 整理番号：17A1773090

マルチモーダル推論とマッチングのための二重注意ネットワーク【Powered by NICT】

Dual Attention Networks for Multimodal Reasoning and Matching

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=17A1773090&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=17A1773090&from=J-GLOBAL&jstjournalNo=W2441A") }}

著者 (3件)： , ,
資料名：
巻： 2017 号： CVPR ページ： 2156-2164 発行年： 2017年
JST資料番号： W2441A 資料種別：会議録 (C)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

ビジョンと言語間の細粒相互作用を捕捉するために視覚的およびテキスト的注意メカニズムを併用した二重注意ネットワーク(DANs)を提案した。DANs多段階によるテキストにおける画像と単語の特定領域に注意とモダリティの両者から得た情報を集める。このフレームワークに基づいて,著者らは,マルチモーダル推論とマッチングのための二種類のDANsを導入した。推論モデルは協調推論,視覚質問応答(VQA)のようなタスクに有用な中に互いにを操縦する視覚およびテキストの留意点を可能にした。さらに,マッチングモデルは,共有された意味論に焦点を当てて画像と文章間の類似性を推定するための二注意メカニズムを利用した。の大規模な実験は,視覚と言語を組み合わせてDANsの有効性を検証し,VQAと画像テキストマッチングのための公共ベンチマーク上で最先端技術レベルの性能を達成した。Copyright 2017 The Institute of Electrical and Electronics Engineers, Inc. All Rights reserved. Translated from English into Japanese by JST【Powered by NICT】

, , , , , , , , , ,
, , , , 【Automatic Indexing@JST】

図形・画像処理一般

, , ,

前のページに戻る