融合畳込み注意機構による画像記述生成モデル【JST・京大機械翻訳】

Huang Youwen; You Yadong; Zhao Peng

文献

J-GLOBAL ID：202002212964059934 整理番号：20A1147127

融合畳込み注意機構による画像記述生成モデル【JST・京大機械翻訳】

Image caption generation model with convolutional attention mechanism

出版者サイト複写サービスで全文入手
高度な検索・分析はJDreamⅢで

著者 (3件)： , ,
資料名：
巻： 40 号： 1 ページ： 23-27 発行年： 2020年
JST資料番号： C2535A ISSN： 1001-9081 CODEN： JYIIDU 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：中国 (CHN) 言語：中国語 (ZH)

画像記述モデルは,画像特徴を抽出し,次に,自然言語処理(NLP)技術を用いて,特徴を表現できる。畳み込みニューラルネットワーク(CNN)と循環ニューラルネットワーク(RNN)に基づく既存の画像記述モデルは,画像のキー情報を抽出する際に精度が高く,訓練速度が遅い。この問題に対して、畳み込み注意力メカニズムと長い短期記憶(LSTM)ネットワークに基づく画像記述生成モデルを提案した。特徴抽出ネットワークとしてInception-ResNet-V2を採用し,従来の全連結操作の代わりに全畳込み操作を導入し,モデルパラメータの数を低減した。画像特徴とテキスト特徴を有効に融合してLSTMユニットに送り込み、訓練を完成し、最終的に画像内容の意味情報を描く。モデルはMSCOデータセットを用いて訓練し、多種の評価指標(BLEU-1、BLEU-4、METEOR、CIDErなど)を用いてモデルを検証した。実験結果は,提案したモデルが画像コンテンツを正確に記述でき,従来の注意機構に基づく方法より優れていることを示した。Data from Wanfang. Translated by JST.【JST・京大機械翻訳】

, , , , ,
, , , , , , , , 【Automatic Indexing@JST】

計算機網

, , , ,

前のページに戻る