Deep Neural Networkに基づく日本語音声認識の基礎評価

神田直之; 武田龍; 大淵康成

文献

J-GLOBAL ID：201502253975601492 整理番号：15A0216193

Deep Neural Networkに基づく日本語音声認識の基礎評価

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=15A0216193&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=15A0216193&from=J-GLOBAL&jstjournalNo=U0451A") }}

著者 (3件)： , ,
資料名：
巻： 2013 号： SLP-97 ページ： WEB ONLY VOL.2013-SLP-97,NO.8 発行年： 2013年07月18日
JST資料番号： U0451A 資料種別：会議録 (C)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

本稿では Deep Neural Network(DNN)を用いた日本語音声認識に関する検討結果を述べる。DNNとは多数の階層を持った人工ニューラルネットワークモデルである。近年,多層のネットワークでも効率的に最適化できる手法が発表され,各種の認識タスクで従来法を上回る性能を示したことから,再び大きな注目を集めている。音声認識分野においてもDNNに基づく音響モデルに関して既に多数の研究が行われ改善が進む一方で,日本語のテストデータを用いた検討結果は限られた学習データを用いた小規模な実験に限られていた。本稿では日本語話し言葉コーパス(CSJ)をテストセットとしDNNに基づく音響モデルに関する各種の評価を行った結果について述べる。特に270時間の学習データを用いた評価において,音素誤り最小化(MPE)学習されたGaussian Mixture Modelに基づく音響モデルと比較して最大28.2%の認識誤りが削減され,DNNの認識性能の高さを日本語においても確認した。またDNNに基づく音響モデルにおいて,学習用の言語リソースが限られた状況でデータを擬似的に増加させる手法について新たに検討を行い,認識精度がさらに向上することを確認した。(著者抄録)

, , , , , , , , , , , ,
,

パターン認識 , ニューロコンピュータ , 情報加工一般

引用文献 (23件)：

Seide, F., Li, G. and Yu, D.: Conversational speech transcription using context-dependent deep neural networks, In Proc. Interspeech, pp. 437-440 (2011).
Graves, A., rahman Mohamed, A. and Hinton, G.: Speech Recognition with Deep Recurrent Neural Networks, In Proc. ICASSP, IEEE, pp. 6645-6649 (2013).
Deng, L., Abdel-Hamid, O. and Yu, D.: A Deep Convolutional Neural Network using Heterogeneous Pooling for Trading Acoustic Invariance with Phonetic Confusion, In Proc. ICASSP, IEEE, pp. 6669-6673 (2013).
Seide, F., Li, G., Chen, X. and Yu, D.: Feature engineering in context-dependent deep neural networks for conversational speech transcription, In Proc. ASRU, IEEE, pp. 24-29 (2011).
Seltzer, M., Yu, D. and Wang, Y.: An Investigation of Deep Neural Networks for Noise Robust Speech Recognition, In Proc. ICASSP, IEEE, pp. 7398-7402 (2013).

, , ,

前のページに戻る