文献
J-GLOBAL ID:202102239543671440   整理番号:21A1193860

ゲーム理論的最適化による自動画像記述生成のための高密度モデル【JST・京大機械翻訳】

Dense Model for Automatic Image Description Generation with Game Theoretic Optimization
著者 (2件):
資料名:
巻: 10  号: 11  ページ: 354  発行年: 2019年 
JST資料番号: U7203A  ISSN: 2078-2489  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: スイス (CHE)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
深層学習技術の急速な成長のために,自動画像記述生成はコンピュータビジョンと自然言語生成における興味深い問題である。それは,ソーシャルメディア上の写真収集へのアクセスを改善し,視覚障害者に対する指針を与える。現在,深層ニューラルネットワークはコンピュータビジョンと自然言語処理タスクにおいて極めて重要な役割を果たす。本研究の主目的は,訓練されたキャップの意味論を用いて画像の文学的に正しい記述を生成することである。深層ニューラルシステムを用いた符号器デコーダフレームワークを用いて,画像記述生成タスクを実行した。符号器は画像構文モジュールであり,復号器は表面実現モジュールである。フレームワークは,言語モデリングのための画像符号化と双方向性Long Short Termメモリ(BLSTM)のための高密度接続畳込みニューラルネットワーク(Densenet)を使用して,出力をキャプションジェネレータにおける双方向LSTMに与えて,それは画像の目標記述の対数尤度を最適化するために訓練した。既存の画像キャプテーション作業の大部分は,言語モデリングのためにRNNとLSTMを使用する。RNNは限られたメモリで計算的に高価である。LSTMは1方向に入力をチェックする。BLSTMは実際に使用され,RNNとLSTMの問題を避ける。本研究では,ビーム探索とゲーム理論探索を用いて,キャップ生成における単語の最良組合せの選択を行った。結果は,ゲーム理論的探索がビーム探索より優れていることを示した。モデルは標準ベンチマークデータセットFlickr8kで評価した。バイリンガル評価(BLEU)スコアをシステムの評価尺度として取り上げた。GCorrecと呼ばれる新しい評価尺度を用いて,記述の文法的正当性をチェックした。提案モデルの性能はFlickr8kデータセットに関する以前の方法よりも大きな改善を達成した。提案モデルは,0.040625のGCorectと69.96%のBLEUスコアを有する画像のために,文法的に正しい文章を作り出す。Copyright 2021 The Author(s) All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
図形・画像処理一般  ,  人工知能 
引用文献 (43件):
  • Mikolov, T.; Karafiát, M.; Burget, L.; Černocký, J.; Khudanpur, S. Recurrent neural network based language model. In Proceedings of the Conference of the International Speech Communication Association, Makuhari, Chiba, Japan, 26-30 September 2010; DBLP. pp. 1045-1048.
  • Hochreiter, S.; Schmidhuber, J. Long short-term memory. Neural Comput. 1997, 9, 1735-1780.
  • Vinyals, O.; Toshev, A.; Bengio, S.; Erhan, D. Show and tell: A neural image caption generator. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Boston, MA, USA, 7-12 June 2015.
  • Karpathy, A.; Joulin, A.; Fei-Fei, L. Deep Fragment Embeddings for Bidirectional Image Sentence Mapping. Adv. Neural Inf. Process. Syst. 2014, arXiv:1406.5679.
  • Bernardi, R.; Cakici, R.; Elliott, D.; Erdem, A.; Erdem, E.; Ikizler-Cinbis, N.; Keller, F.; Muscat, A.; Plank, B. Automatic Description Generation from Images: A Survey of Models, Datasets, and Evaluation Measures. J. Artif. Intell. Res. (JAIR) 2016, 55, 409-442.
もっと見る
タイトルに関連する用語 (5件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る