Tell,想像,探索:テキストと画像を画像検索にするためのエンドツーエンド学習【JST・京大機械翻訳】

Zhang Feifei; Xu Mingliang; Xu Changsheng

文献

J-GLOBAL ID：202202247535944409 整理番号：22A0984600

Tell,想像,探索:テキストと画像を画像検索にするためのエンドツーエンド学習【JST・京大機械翻訳】

Tell, Imagine, and Search: End-to-end Learning for Composing Text and Image to Image Retrieval

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=22A0984600&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=22A0984600&from=J-GLOBAL&jstjournalNo=W5702A") }}

著者 (3件)： , ,
資料名：
巻： 18 号： 2 ページ： 1-23 発行年： 2022年
JST資料番号： W5702A ISSN： 1551-6857 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

画像検索(CTI-IR)へのテキストと画像の同時処理はコンピュータビジョンにおける新たなタスクであり,クエリ画像に対する望ましい修正を記述するテキストによるクエリ画像に関連する画像検索を可能にする。ほとんどの従来のクロスモーダル検索手法は,通常,他のモダリティの関連データを検索するためのクエリとして1つのモダリティデータを取る。既存の方法と異なり,本論文では,同時画像生成とCTI-IRのためのエンドツーエンド訓練可能ネットワークを提案した。提案モデルは,Generative Adversarial Network(GAN)に基づいており,いくつかのメリットを楽しむ。最初に,生成モデルと検索モデルを共同訓練することによって,質問(テキスト記述による質問画像)のための生成的および弁別的特徴を学ぶことができる。第2に,著者らのモデルは,合成画像とターゲット画像の間の敵対的学習によってテキスト記述に関して参照画像の視覚特徴を自動的に操作することができた。第3に,グローバル局所協調識別器と注意ベース発電機を利用して,質問画像とターゲット画像の間の大域的と局所的差異の両方に焦点を当てた。結果として,生成された画像の意味論的一貫性と微細粒の詳細は,著者らのモデルでより良く強化できる。生成された画像は,著者らの検索モデルを解釈して,電力化するために使用することができる。3つのベンチマークデータセットの定量的および定性的評価は,提案アルゴリズムが最先端の方法に対して良好に機能することを示した。Please refer to this article’s citation page on the publisher website for specific rights information. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , , , , , , , , ,
, , , 【Automatic Indexing@JST】

著者キーワード (5件)： , , , ,

図形・画像処理一般 , 検索技術 , パターン認識

, , , ,

前のページに戻る