ゲーム理論的最適化による自動画像記述生成のための高密度モデル【JST・京大機械翻訳】

R Sreela S; Idicula Sumam Mary

文献

J-GLOBAL ID：202102239543671440 整理番号：21A1193860

ゲーム理論的最適化による自動画像記述生成のための高密度モデル【JST・京大機械翻訳】

Dense Model for Automatic Image Description Generation with Game Theoretic Optimization

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=21A1193860&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=21A1193860&from=J-GLOBAL&jstjournalNo=U7203A") }}

著者 (2件)： ,
資料名：
巻： 10 号： 11 ページ： 354 発行年： 2019年
JST資料番号： U7203A ISSN： 2078-2489 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：スイス (CHE) 言語：英語 (EN)

深層学習技術の急速な成長のために,自動画像記述生成はコンピュータビジョンと自然言語生成における興味深い問題である。それは,ソーシャルメディア上の写真収集へのアクセスを改善し,視覚障害者に対する指針を与える。現在,深層ニューラルネットワークはコンピュータビジョンと自然言語処理タスクにおいて極めて重要な役割を果たす。本研究の主目的は,訓練されたキャップの意味論を用いて画像の文学的に正しい記述を生成することである。深層ニューラルシステムを用いた符号器デコーダフレームワークを用いて,画像記述生成タスクを実行した。符号器は画像構文モジュールであり,復号器は表面実現モジュールである。フレームワークは,言語モデリングのための画像符号化と双方向性Long Short Termメモリ(BLSTM)のための高密度接続畳込みニューラルネットワーク(Densenet)を使用して,出力をキャプションジェネレータにおける双方向LSTMに与えて,それは画像の目標記述の対数尤度を最適化するために訓練した。既存の画像キャプテーション作業の大部分は,言語モデリングのためにRNNとLSTMを使用する。RNNは限られたメモリで計算的に高価である。LSTMは1方向に入力をチェックする。BLSTMは実際に使用され,RNNとLSTMの問題を避ける。本研究では,ビーム探索とゲーム理論探索を用いて,キャップ生成における単語の最良組合せの選択を行った。結果は,ゲーム理論的探索がビーム探索より優れていることを示した。モデルは標準ベンチマークデータセットFlickr8kで評価した。バイリンガル評価(BLEU)スコアをシステムの評価尺度として取り上げた。GCorrecと呼ばれる新しい評価尺度を用いて,記述の文法的正当性をチェックした。提案モデルの性能はFlickr8kデータセットに関する以前の方法よりも大きな改善を達成した。提案モデルは,0.040625のGCorectと69.96%のBLEUスコアを有する画像のために,文法的に正しい文章を作り出す。Copyright 2021 The Author(s) All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , , , , , , , ,
, , , 【Automatic Indexing@JST】

著者キーワード (5件)： , , , ,

図形・画像処理一般 , 人工知能

引用文献 (43件)：

Mikolov, T.; Karafiát, M.; Burget, L.; Černocký, J.; Khudanpur, S. Recurrent neural network based language model. In Proceedings of the Conference of the International Speech Communication Association, Makuhari, Chiba, Japan, 26-30 September 2010; DBLP. pp. 1045-1048.
Hochreiter, S.; Schmidhuber, J. Long short-term memory. Neural Comput. 1997, 9, 1735-1780.
Vinyals, O.; Toshev, A.; Bengio, S.; Erhan, D. Show and tell: A neural image caption generator. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Boston, MA, USA, 7-12 June 2015.
Karpathy, A.; Joulin, A.; Fei-Fei, L. Deep Fragment Embeddings for Bidirectional Image Sentence Mapping. Adv. Neural Inf. Process. Syst. 2014, arXiv:1406.5679.
Bernardi, R.; Cakici, R.; Elliott, D.; Erdem, A.; Erdem, E.; Ikizler-Cinbis, N.; Keller, F.; Muscat, A.; Plank, B. Automatic Description Generation from Images: A Survey of Models, Datasets, and Evaluation Measures. J. Artif. Intell. Res. (JAIR) 2016, 55, 409-442.

, , , ,

前のページに戻る