抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
深層学習技術の急速な成長のために,自動画像記述生成はコンピュータビジョンと自然言語生成における興味深い問題である。それは,ソーシャルメディア上の写真収集へのアクセスを改善し,視覚障害者に対する指針を与える。現在,深層ニューラルネットワークはコンピュータビジョンと自然言語処理タスクにおいて極めて重要な役割を果たす。本研究の主目的は,訓練されたキャップの意味論を用いて画像の文学的に正しい記述を生成することである。深層ニューラルシステムを用いた符号器デコーダフレームワークを用いて,画像記述生成タスクを実行した。符号器は画像構文モジュールであり,復号器は表面実現モジュールである。フレームワークは,言語モデリングのための画像符号化と双方向性Long Short Termメモリ(BLSTM)のための高密度接続畳込みニューラルネットワーク(Densenet)を使用して,出力をキャプションジェネレータにおける双方向LSTMに与えて,それは画像の目標記述の対数尤度を最適化するために訓練した。既存の画像キャプテーション作業の大部分は,言語モデリングのためにRNNとLSTMを使用する。RNNは限られたメモリで計算的に高価である。LSTMは1方向に入力をチェックする。BLSTMは実際に使用され,RNNとLSTMの問題を避ける。本研究では,ビーム探索とゲーム理論探索を用いて,キャップ生成における単語の最良組合せの選択を行った。結果は,ゲーム理論的探索がビーム探索より優れていることを示した。モデルは標準ベンチマークデータセットFlickr8kで評価した。バイリンガル評価(BLEU)スコアをシステムの評価尺度として取り上げた。GCorrecと呼ばれる新しい評価尺度を用いて,記述の文法的正当性をチェックした。提案モデルの性能はFlickr8kデータセットに関する以前の方法よりも大きな改善を達成した。提案モデルは,0.040625のGCorectと69.96%のBLEUスコアを有する画像のために,文法的に正しい文章を作り出す。Copyright 2021 The Author(s) All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】