EAES:テキストベース画像キャプションのための効果的な拡張埋込み空間【JST・京大機械翻訳】

Nguyen Khang; Bui Doanh C.; Trinh Truc; Vo Nguyen D.

文献

J-GLOBAL ID：202202286174619635 整理番号：22A1101992

EAES:テキストベース画像キャプションのための効果的な拡張埋込み空間【JST・京大機械翻訳】

EAES: Effective Augmented Embedding Spaces for Text-Based Image Captioning

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=22A1101992&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=22A1101992&from=J-GLOBAL&jstjournalNo=W2422A") }}

著者 (4件)： , , ,
資料名：
巻： 10 ページ： 32443-32452 発行年： 2022年
JST資料番号： W2422A ISSN： 2169-3536 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

テキストベースの画像捕捉は2020年以降の新規な問題である。このトピックスは,視覚コンテキストだけでなく,画像に現れるシーンテキストも理解するため,モデルを必要とするので,困難なままである。したがって,画像とシーンテキストを訓練のための主要モデルに埋め込む。M4C-Captionerモデルに基づいて,本論文は,マルチモーダル変換層への画像とシーンテキストを効果的に埋め込むための単純だが効果的なEAES埋込みモジュールを提案した。詳細に,著者らのEAESモジュールは,2つの重要なサブモジュールを含む:オブジェクト増強とグリッド特徴増強。オブジェクト増強モジュールを用いて,オブジェクトとOCRトークン間の関係を表す相対的幾何学特徴を提供した。さらに,Grid特徴増強モジュールを持つ画像に対する格子特徴を抽出し,それを視覚オブジェクトと結合させ,それにより,このモデルが,優れた性能に導く,画像の顕著なオブジェクトと一般的コンテキストの両方に焦点を当てた。ベンチマークとしてTextCapsデータセットを用いて,BLEU4,METEOR,ROUGE-L,SPICE,およびCIDErの5つの標準計量に対する著者らのアプローチの有効性を証明した。ベルとヒッスルなしで,著者らの方法は,ベースラインM4C-Captioner法より,それぞれ,BLEU4計量で20.21%,CIDEr計量で85.78%,1.31%と4.78%高い。さらに,結果はMETEOR,ROUGE-LおよびSPICEメトリックスに関する他の方法と明らかに競合する。ソースコードはhttps://github.com/UIT-Together/EAES_m4cで利用可能である。Copyright 2022 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , , , , , ,
, , , , 【Automatic Indexing@JST】

パターン認識 , 図形・画像処理一般

, ,

前のページに戻る