文献
J-GLOBAL ID:202002252916456909   整理番号:20A1956034

スタック-VS:画像キャプション生成のためのスタック視覚-意味的注意【JST・京大機械翻訳】

Stack-VS: Stacked Visual-Semantic Attention for Image Caption Generation
著者 (5件):
資料名:
巻:ページ: 154953-154965  発行年: 2020年 
JST資料番号: W2422A  ISSN: 2169-3536  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
最近,自動画像キャプション生成は,マルチモーダル翻訳タスクに関する研究の重要な焦点である。既存の手法は,2つのクラス,トップダウンとボトムアップに大まかに分類でき,前者は画像情報をキャプションに直接転送し,その後,抽出単語(意味レベル属性と呼ぶ)を用いて記述を生成する。しかしながら,以前の方法は,典型的には,画像キャプション生成のための視覚レベルまたは意味レベル情報の一部を利用する1段階復号器または部分を利用する。本論文では,入力画像の視覚レベルおよび意味レベル情報の両方を効果的に取り扱うためにボトムアップおよびトップダウン注意モデルを結合することにより,豊富な微細粒画像キャプション生成のために,この問題に対処し,革新的多段アーキテクチャ(Stack-VSと呼ぶ)を提案した。特に,著者らは,2つのLSTM層を含む,それぞれ,2つのLSTM層を含む新しい良く設計されたスタック復号器モデルを,視覚レベル特徴ベクトルと意味レベル属性埋込みの両方に対する注意重みを再最適化するために,微細粒画像キャプションを生成するため,提案する。一般的なベンチマークデータセットMSCOCOに関する広範な実験は,異なる評価尺度,すなわち,BLEU-4/CIDEr/SPICEスコアの改善が,最先端技術と比較して,それぞれ0.372,1.226および0.216であることを示した。Copyright 2020 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
図形・画像処理一般 

前のページに戻る