RNN変換器ASRモデルの訓練と適応のためのテキスト入力の統合【JST・京大機械翻訳】

Thomas Samuel; Kingsbury Brian; Saon George; Kuo Hong-Kwang J.

プレプリント

J-GLOBAL ID：202202216067724434 整理番号：22P0295767

RNN変換器ASRモデルの訓練と適応のためのテキスト入力の統合【JST・京大機械翻訳】

Integrating Text Inputs For Training and Adapting RNN Transducer ASR Models

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (4件)： , , ,
資料名：
発行年： 2022年02月26日プレプリントサーバーでの情報更新日： 2022年02月26日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

各コンポーネントが新しいドメインに独立に適応できるモジュールアーキテクチャを使用するハイブリッド自動音声認識(ASR)システムと比較して,最近のエンドツーエンド(E2E)ASRシステムは,それらの全神経モノリシック構築のためにカスタム化することがより困難である。本論文では,E2E ASRモデルのための新しいテキスト表現と訓練フレームワークを提案した。このアプローチにより,訓練されたRNNトランスデューサ(RNN-T)モデルの内部LM成分がテキストのみのデータに効果的に適応できることを示した。音声とテキスト入力の両方を用いて訓練されたRNN-Tモデルは,NIST Hub52000評価のスイッチボードとCallHomeテストセットで,約13%の単語誤り率(WER)削減で,ちょうど音声上で訓練されたベースラインモデルを越えて改善した。この一般的目的RNN-Tモデルを3つの別々のデータセットにカスタマイズすることによって,提案した方法の有用性をさらに実証した。新しいドメインからの不対テキストデータのみを用いて,この新しいLMスタイルカスタム化技法によるこれらの設定における20-45%相対単語誤り率(WER)低減を観測した。【JST・京大機械翻訳】

, , , , , , , , , , ,
, , , 【Automatic Indexing@JST】

パターン認識

, , , , , , ,

前のページに戻る