時系列を考慮したConvolutional Neural Networkによる視覚音声認識のための音素識別

橋本直矢; 佐々木一磨; 尾形哲也; 中臺一博

文献

J-GLOBAL ID：201602228057584370 整理番号：16A1167297

時系列を考慮したConvolutional Neural Networkによる視覚音声認識のための音素識別

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=16A1167297&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=16A1167297&from=J-GLOBAL&jstjournalNo=L4867A") }}

著者 (4件)： , , ,
資料名：
巻： 34th ページ： ROMBUNNO.1C2-03 発行年： 2016年09月07日
JST資料番号： L4867A 資料種別：会議録 (C)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

本研究では,実環境下におけるロバストな音声認識を目指した「リップリーディング」の実現を目的としている。従来手法では1枚の唇画像からの深層学習モデルにより約30%の音素識別を実現している。本研究ではこれを時系列データに拡張するため,時間方向に近接する複数フレームの唇画像を1つの入力とするTime Delay型のCNNを用いた評価を行った。検証実験の結果,時系列で近接する画像のフレームを9枚にすることで認識率が約19%程度向上することが確かめられた。(著者抄録)

, , , , , , , ,
, , ,

人工知能

引用文献 (11件)：

A. Krizhevsky, I. Sutskever and G. E. Hinton, ”ImageNet Classification with Deep Convolutional Neural Networks”, NIPS, 2012.
K. Noda, Y. Yamaguchi, K. Nakadai, H. G. Okuno, and T. Ogata, “Lipreading using Convolutional Neural Network,” in Proc. Interspeech, pp. 1149-1153, 2014
J. Ngiam, A. Khosla, M. Kim, J. Nam, H. Lee and A. Y. Ng., “Multimodal deep learning”, ICML, 2011.
M. Wand, J. Koutnik, J. Schmidhuber, “Lipreading with Long Short-Term Memory”, The Swiss AI Lab IDSIA, USI & SUPSI, arXiv:1601.08188v1, 2016
K. Noda, Y. Yamaguchi, K. Nakadai, H. G. Okuno, and T. Ogata, ′′Audio-visual speech recognition using deep learning′′, Applied Intelligence, Vol.42, Issue 4, pp. 722-737, 2015

, , , ,

前のページに戻る