CTCとマスク推定に基づく推論速度の速いEnd-to-End音声認識

樋口陽祐; 稲熊寛文; 渡部晋治; 小川哲司; 小林哲則

文献

J-GLOBAL ID：202102224906335257 整理番号：21A0362030

CTCとマスク推定に基づく推論速度の速いEnd-to-End音声認識

Fast End-to-End Speech Recognition with CTC and Mask Predict

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=21A0362030&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=21A0362030&from=J-GLOBAL&jstjournalNo=U2030A") }}

著者 (5件)： , , , ,
資料名：
巻： 120 号： 270(NLC2020 13-20) ページ： 1-6 (WEB ONLY) 発行年： 2020年11月25日
JST資料番号： U2030A ISSN： 2432-6380 資料種別：会議録 (C)
記事区分：短報発行国：日本 (JPN) 言語：日本語 (JA)

Connectionist Temporal Classification(CTC)とマスク推定により非自己回帰的なEnd-to-End音声認識モデルを学習し,推論時はCTCの出力をマスク推定により改善することで,推論速度の速いEnd-to-End音声認識を実現することを試みる.従来の高精度なEnd-to-Endモデルは,推論時に系列を自己回帰的に生成するため,目的系列の長さに比例した計算コストを要する.それに対し,非自己回帰的なモデルは複数の記号を並列に出力し,一定の計算コストで系列を生成できるため,推論速度が速く,より実用的な性能を期待できる.本研究では,CTCに基づく非自己回帰的なモデルを構築する.このとき,目的系列の「穴埋め問題」を解くマスク推定と同時学習することで,推論時に出力記号間の依存性を考慮した高精度な認識が行えるようにする.複数の音声認識タスクにおいて提案のモデルを評価したところ,推論速度の速い認識(CPUでRTFが0.1以下)が行えることを確認した.また,認識精度はCTCのみで学習したモデルから大幅に向上し,自己回帰的なモデルと同等の性能が得られることを確認した.(著者抄録)

, , , , ,
, ,

パターン認識

引用文献 (35件)：

Alex Graves et al. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks. In Proc. of ICML, pages 369-376, 2006.
Alex Graves. Sequence transduction with recurrent neural networks. arXiv preprint arXiv:1211.3711, 2012.
Ilya Sutskever and other. Sequence to sequence learning with neural networks. In Proc. of NeurIPS, pages 3104-3112, 2014.
Dzmitry Bahdanau et al. Neural machine translation by jointly learning to align and translate. In Proc. of ICLR, 2015.
Geoffrey Hinton et al. Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups. IEEE Signal processing magazine, 29(6):82-97, 2012.

, , , ,

前のページに戻る