文献
J-GLOBAL ID:202202286174619635   整理番号:22A1101992

EAES:テキストベース画像キャプションのための効果的な拡張埋込み空間【JST・京大機械翻訳】

EAES: Effective Augmented Embedding Spaces for Text-Based Image Captioning
著者 (4件):
資料名:
巻: 10  ページ: 32443-32452  発行年: 2022年 
JST資料番号: W2422A  ISSN: 2169-3536  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
テキストベースの画像捕捉は2020年以降の新規な問題である。このトピックスは,視覚コンテキストだけでなく,画像に現れるシーンテキストも理解するため,モデルを必要とするので,困難なままである。したがって,画像とシーンテキストを訓練のための主要モデルに埋め込む。M4C-Captionerモデルに基づいて,本論文は,マルチモーダル変換層への画像とシーンテキストを効果的に埋め込むための単純だが効果的なEAES埋込みモジュールを提案した。詳細に,著者らのEAESモジュールは,2つの重要なサブモジュールを含む:オブジェクト増強とグリッド特徴増強。オブジェクト増強モジュールを用いて,オブジェクトとOCRトークン間の関係を表す相対的幾何学特徴を提供した。さらに,Grid特徴増強モジュールを持つ画像に対する格子特徴を抽出し,それを視覚オブジェクトと結合させ,それにより,このモデルが,優れた性能に導く,画像の顕著なオブジェクトと一般的コンテキストの両方に焦点を当てた。ベンチマークとしてTextCapsデータセットを用いて,BLEU4,METEOR,ROUGE-L,SPICE,およびCIDErの5つの標準計量に対する著者らのアプローチの有効性を証明した。ベルとヒッスルなしで,著者らの方法は,ベースラインM4C-Captioner法より,それぞれ,BLEU4計量で20.21%,CIDEr計量で85.78%,1.31%と4.78%高い。さらに,結果はMETEOR,ROUGE-LおよびSPICEメトリックスに関する他の方法と明らかに競合する。ソースコードはhttps://github.com/UIT-Together/EAES_m4cで利用可能である。Copyright 2022 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識  ,  図形・画像処理一般 
タイトルに関連する用語 (3件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る