インターモーダル検索に向けた協調注意力ネットワークモデル【JST・京大機械翻訳】

Deng Yijiao; Zhang Fengli; Chen Xueqin; Ai Qing; Yu Suzhe

文献

J-GLOBAL ID：202102290430202238 整理番号：21A0739046

インターモーダル検索に向けた協調注意力ネットワークモデル【JST・京大機械翻訳】

Collaborative Attention Network Model for Cross-modal Retrieval

出版者サイト複写サービスで全文入手
高度な検索・分析はJDreamⅢで

著者 (5件)： , , , ,
資料名：
巻： 47 号： 4 ページ： 54-59 発行年： 2020年
JST資料番号： C2530A ISSN： 1002-137X 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：中国 (CHN) 言語：中国語 (ZH)

画像、テキスト、音声、ビデオなどの多モードネットワークデータの急激な増加に伴い、人々は多様化の検索需要が日々強くなり、その中の多モード検索は広く注目されている。しかし、その異質性の差異があるため、異なるデータモードの間で内容の類似性を探すことは、依然として挑戦的である。既存の方法では,マッピング行列または深さモデルにより,不均一データを共通部分空間に投影し,相関関係,すなわち,画像とテキストの大域的情報の対応関係をマイニングし,データ内の局所的文脈情報とデータ間の細粒度の相互作用情報を無視し,また,相互モード相関を完全には見つけることができない。そのため、本文では、テキスト-画像共同注意力ネットワークモデル(CoAN)を提案し、多モードデータのキー情報部分に選択的に注目することで、内容の類似性の計測を増強させる。CoANは前訓練のVGGNetモデルと循環ニューラルネットワークを利用して、画像とテキストの細粒度特徴を深層に抽出して、テキスト-視覚注意力機構を利用して言語と視覚の間の微細な相互作用を捉えた。同時に、このモデルはそれぞれテキストと画像のハッシュ表現を学習し、ハッシュ方法の低い記憶特性と計算の高効率性を利用して検索速度を高めた。実験により,2つの広く用いられる交差モードデータセットにおいて,平均精度平均(mAP)は,すべてのコントラスト方法を超え,そして,テキスト検索画像および画像検索テキストのmAP値は,それぞれ0.807および0.769であった。実験結果は,CoANが,マルチモーダルデータのキー情報領域とデータ間の細粒度間の相互情報を検出するのに役立ち,モードデータの内容類似性をマイニングし,検索精度を改善することを示した。Data from Wanfang. Translated by JST.【JST・京大機械翻訳】

, , , , , , , , , ,
, , , , 【Automatic Indexing@JST】

図形・画像処理一般 , 計算機網

, , ,

前のページに戻る