Blockwiseストリーミング音声認識と発話区間検出の統合

周藤唯; SHAKEEL Muhammad; 中臺一博; SHI Jiatong; 渡部晋二

文献

J-GLOBAL ID：202302277915656539 整理番号：23A0023762

Blockwiseストリーミング音声認識と発話区間検出の統合

Integration of Blockwise Streaming Automatic Speech Recognition with Voice Activity Detection

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
このテーマを更に深掘りする（JDreamⅢへ） {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=23A0023762&from=J-GLOBAL&jstjournalNo=U2752A") }}

著者 (5件)： , , , ,
資料名：
巻： 2022 号： Challenge-061 ページ： 51-56(J-STAGE) 発行年： 2022年11月22日
JST資料番号： U2752A ISSN： 2436-5556 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

本稿では,ストリーミング音声を入力とする音声認識アプリケーションに対応するため,Blockwiseストリーミング音声認識と発話区間検出の統合を扱う.近年,エンドツーエンド音声認識は実用的なシステムとして有望視されているが,ストリーミング音声入力に対応するためには以下の課題がある.1)多くのエンドツーエンド音声認識モデルは音声入力があらかじめ短い発話に区切られていることを前提としているため,前段に発話区間検出モジュールが必要であり,システム全体のパラメータ数が増加する.2)発話区間検出モジュールによる音声切り出しが適切でない場合,音声認識の性能が劣化する.3)非発話区間が誤って発話として検出されると,性能劣化に加えて余分なデコードを行うための計算コストが増加する.そこで,本研究では,システム全体のパラメータを削減するため,Blockwiseストリーミング音声認識に発話区間検出ブランチを統合したモデルを提案する.また,ブロックごとに推定される発話区間検出結果を適切にデコード時に利用するため,Re-blocking処理を提案する.提案手法は,既存の統合手法に対して,パラメータ数の増加を1%未満に抑えながら,発話区間検出エラー率を70.1%減少させた.さらに,同等のリアルタイムファクタ(RTF)を維持しつつ,文字誤り率(CER)を14.5%改善することができた.(著者抄録)

, , , , , , , , , ,
, , , ,

人工知能 , 音響信号処理

, , , ,

前のページに戻る