文献
J-GLOBAL ID:202302277915656539   整理番号:23A0023762

Blockwiseストリーミング音声認識と発話区間検出の統合

Integration of Blockwise Streaming Automatic Speech Recognition with Voice Activity Detection
著者 (5件):
資料名:
巻: 2022  号: Challenge-061  ページ: 51-56(J-STAGE)  発行年: 2022年11月22日 
JST資料番号: U2752A  ISSN: 2436-5556  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: 日本 (JPN)  言語: 日本語 (JA)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本稿では,ストリーミング音声を入力とする音声認識アプリケーションに対応するため,Blockwiseストリーミング音声認識と発話区間検出の統合を扱う.近年,エンドツーエンド音声認識は実用的なシステムとして有望視されているが,ストリーミング音声入力に対応するためには以下の課題がある.1)多くのエンドツーエンド音声認識モデルは音声入力があらかじめ短い発話に区切られていることを前提としているため,前段に発話区間検出モジュールが必要であり,システム全体のパラメータ数が増加する.2)発話区間検出モジュールによる音声切り出しが適切でない場合,音声認識の性能が劣化する.3)非発話区間が誤って発話として検出されると,性能劣化に加えて余分なデコードを行うための計算コストが増加する.そこで,本研究では,システム全体のパラメータを削減するため,Blockwiseストリーミング音声認識に発話区間検出ブランチを統合したモデルを提案する.また,ブロックごとに推定される発話区間検出結果を適切にデコード時に利用するため,Re-blocking処理を提案する.提案手法は,既存の統合手法に対して,パラメータ数の増加を1%未満に抑えながら,発話区間検出エラー率を70.1%減少させた.さらに,同等のリアルタイムファクタ(RTF)を維持しつつ,文字誤り率(CER)を14.5%改善することができた.(著者抄録)
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
人工知能  ,  音響信号処理 
タイトルに関連する用語 (5件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る