抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
Connectionist Temporal Classification(CTC)とマスク推定により非自己回帰的なEnd-to-End音声認識モデルを学習し,推論時はCTCの出力をマスク推定により改善することで,推論速度の速いEnd-to-End音声認識を実現することを試みる.従来の高精度なEnd-to-Endモデルは,推論時に系列を自己回帰的に生成するため,目的系列の長さに比例した計算コストを要する.それに対し,非自己回帰的なモデルは複数の記号を並列に出力し,一定の計算コストで系列を生成できるため,推論速度が速く,より実用的な性能を期待できる.本研究では,CTCに基づく非自己回帰的なモデルを構築する.このとき,目的系列の「穴埋め問題」を解くマスク推定と同時学習することで,推論時に出力記号間の依存性を考慮した高精度な認識が行えるようにする.複数の音声認識タスクにおいて提案のモデルを評価したところ,推論速度の速い認識(CPUでRTFが0.1以下)が行えることを確認した.また,認識精度はCTCのみで学習したモデルから大幅に向上し,自己回帰的なモデルと同等の性能が得られることを確認した.(著者抄録)