スタック-VS:画像キャプション生成のためのスタック視覚-意味的注意【JST・京大機械翻訳】

Cheng Ling; Wei Wei; Mao Xianling; Liu Yong; Miao Chunyan

文献

J-GLOBAL ID：202002252916456909 整理番号：20A1956034

スタック-VS:画像キャプション生成のためのスタック視覚-意味的注意【JST・京大機械翻訳】

Stack-VS: Stacked Visual-Semantic Attention for Image Caption Generation

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=20A1956034&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=20A1956034&from=J-GLOBAL&jstjournalNo=W2422A") }}

著者 (5件)： , , , ,
資料名：
巻： 8 ページ： 154953-154965 発行年： 2020年
JST資料番号： W2422A ISSN： 2169-3536 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

最近,自動画像キャプション生成は,マルチモーダル翻訳タスクに関する研究の重要な焦点である。既存の手法は,2つのクラス,トップダウンとボトムアップに大まかに分類でき,前者は画像情報をキャプションに直接転送し,その後,抽出単語(意味レベル属性と呼ぶ)を用いて記述を生成する。しかしながら,以前の方法は,典型的には,画像キャプション生成のための視覚レベルまたは意味レベル情報の一部を利用する1段階復号器または部分を利用する。本論文では,入力画像の視覚レベルおよび意味レベル情報の両方を効果的に取り扱うためにボトムアップおよびトップダウン注意モデルを結合することにより,豊富な微細粒画像キャプション生成のために,この問題に対処し,革新的多段アーキテクチャ(Stack-VSと呼ぶ)を提案した。特に,著者らは,2つのLSTM層を含む,それぞれ,2つのLSTM層を含む新しい良く設計されたスタック復号器モデルを,視覚レベル特徴ベクトルと意味レベル属性埋込みの両方に対する注意重みを再最適化するために,微細粒画像キャプションを生成するため,提案する。一般的なベンチマークデータセットMSCOCOに関する広範な実験は,異なる評価尺度,すなわち,BLEU-4/CIDEr/SPICEスコアの改善が,最先端技術と比較して,それぞれ0.372,1.226および0.216であることを示した。Copyright 2020 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , ,
, , , , , 【Automatic Indexing@JST】

図形・画像処理一般

, , , , ,

前のページに戻る