細粒度視覚テキスト表現学習【JST・京大機械翻訳】

He Xiangteng; Peng Yuxin

文献

J-GLOBAL ID：202002274451840074 整理番号：20A0492431

細粒度視覚テキスト表現学習【JST・京大機械翻訳】

Fine-Grained Visual-Textual Representation Learning

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=20A0492431&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=20A0492431&from=J-GLOBAL&jstjournalNo=W0321A") }}

著者 (2件)： ,
資料名：
巻： 30 号： 2 ページ： 520-531 発行年： 2020年
JST資料番号： W0321A ISSN： 1051-8215 CODEN： ITCTEM 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

細粒視覚分類は,類似のサブカテゴリ間の非常に微妙で局所的な視覚識別による非常に挑戦的なタスクである,同じ基本レベルカテゴリに属する数百のサブカテゴリを認識することである。ほとんどの既存の方法は,一般的に部分検出器を学習し,より良い分類性能のための識別領域を発見する。しかしながら,全ての部分は視覚的分類には有益で不可欠であり,部品検出器数の設定は実験的検証と同様に事前知識に大きく依存する。すべてについて知られているように,テキスト記述によって画像のオブジェクトを記述するとき,著者らは主に中心的特性に焦点を合わせて,バックグラウンド領域と同様に一般的特性に注意を払わなかった。これは人間の視覚的注意からテキストへの注意への不随意的な移転であり,それはテキストの注意が多くのことをもたらし,どの部分が識別的で,カテゴリー化に対して重要であるという事実をもたらす。したがって,テキストの注意は,画像における視覚的注意を発見するのを助けることができた。これに触発されて,著者らは,細粒視覚テキスト表現学習(VTRL)アプローチを提案し,その主な貢献は以下の通りである。1)視覚とテキスト情報を自動的にモデル化することにより,視覚とテキスト間情報を同時にモデリングすることにより,カテゴリー化性能を向上させるために,視覚とテキスト情報を統合することにより,視覚とテキスト情報を結合することにより,分類性能を向上させることができる。また,分類性能をさらに改善する。。これにより,視覚とテキスト情報を組み合わせることにより,分類性能を向上させることが可能となる。。このことは,視覚とテキストの情報を結合する。これにより,カテゴリー化性能を改善することができる。広く使われているCUB-200-2011およびOxford Flowers-102データセットに関する包括的実験結果は,著者らのVTRLアプローチの有効性を実証し,最先端の方法と比較して最良の分類精度を達成した。Copyright 2020 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , ,
, , , , 【Automatic Indexing@JST】

図形・画像処理一般 , パターン認識

, ,

前のページに戻る