MHSAN:視覚意味埋め込みのためのマルチヘッド自己注意ネットワーク【JST・京大機械翻訳】

Park Geondo; Han Chihye; Kim Daeshik; Yoon Wonjun

文献

J-GLOBAL ID：202002281324427557 整理番号：20A1187694

MHSAN:視覚意味埋め込みのためのマルチヘッド自己注意ネットワーク【JST・京大機械翻訳】

MHSAN: Multi-Head Self-Attention Network for Visual Semantic Embedding

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=20A1187694&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=20A1187694&from=J-GLOBAL&jstjournalNo=W2441A") }}

著者 (4件)： , , ,
資料名：
巻： 2020 号： WACV ページ： 1507-1515 発行年： 2020年
JST資料番号： W2441A 資料種別：会議録 (C)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

視覚的意味埋め込みは,画像テキスト検索,画像捕捉,および視覚的質問応答のような様々なタスクを可能にする。視覚的意味埋込みの成功に対する鍵は,それらの複雑な関係を説明することにより,視覚的およびテキスト的データを適切に表現することである。以前の研究は,類似の概念が密接に位置するジョイント空間への視覚的およびテキスト的データを符号化することにより,多くの進歩を達成したが,画像またはテキストにおける複数の重要な成分の存在を無視する単一ベクトルによるデータをしばしば表現する。そこで,関節埋め込み空間に加えて,データにおける重要な部分に注意することにより,視覚的およびテキスト的データの様々な構成要素を捉えるための新しいマルチヘッド自己注意ネットワークを提案した。著者らのアプローチは,MS-COCOとFlicker30Kデータセットに関する画像テキスト検索タスクにおける新しい最先端の結果を達成した。画像とテキストにおける複数の位置における異なる意味成分を捉える注意マップの可視化を通して,著者らの方法が効果的で解釈可能な視覚-意味論的ジョイント空間を達成することを実証した。Copyright 2020 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , ,

図形・画像処理一般

, , , , ,

前のページに戻る