ニューラルネットワークを用いた視覚コンテンツのためのテキスト記述生成【JST・京大機械翻訳】

Garg Komal; Singh Varsha; Tiwary Uma Shanker

文献

J-GLOBAL ID：202202275398284700 整理番号：22A0980213

ニューラルネットワークを用いた視覚コンテンツのためのテキスト記述生成【JST・京大機械翻訳】

Textual Description Generation for Visual Content Using Neural Networks

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=22A0980213&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=22A0980213&from=J-GLOBAL&jstjournalNo=H0078D") }}

著者 (3件)： , ,
資料名：
巻： 13184 ページ： 16-26 発行年： 2022年
JST資料番号： H0078D ISSN： 0302-9743 資料種別：会議録 (C)
記事区分：原著論文発行国：ドイツ (DEU) 言語：英語 (EN)

機械学習における様々な方法は,画像とビデオフレームのための記述テキストを生成し,それらを処理する際に顕著な利用がある。この地域は,過去数年における研究者の巨大な興味を引きつけてきた。テキスト生成のために,様々なモデルはCNNとRNN結合アプローチを含んでいる。RNNは言語モデリングにおいてよく機能した。それは長い間情報を維持するのに欠けている。LSTM言語モデルは,その長期依存性処理のため,この欠点を克服することができる。ここで,提案した方法論は,VGG19畳込みニューラルネットワークがエンコーダとして働いているEncoder-Decoderアプローチである。LSTM言語モデルは,文章を生成するデコーダとして働いている。モデルは,Flickr8Kデータセット上で訓練され,テストされ,わずかな修正でより大きなデータセットFlickr30Kでテキスト記述を生成することができる。結果をBLEUスコア(バイリンガル評価研究スコア)を用いて作成した。GUIツールは,子供の教育の分野を助けるために開発された。このツールは,画像に対して生成されたテキスト記述のためにオーディオを生成し,インターネット上の類似コンテンツの探索を助ける。Copyright Springer Nature Switzerland AG 2022 Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , , , , , , ,
, , , , 【Automatic Indexing@JST】

著者キーワード (3件)： , ,

人工知能 , 自然語処理 , パターン認識 , ニューロコンピュータ

, , ,

前のページに戻る