予歪音響および言語モデルによる非自己回帰エンドツーエンド音声認識の改善【JST・京大機械翻訳】

Deng Keqi; Yang Zehui; Watanabe Shinji; Higuchi Yosuke; Cheng Gaofeng; Zhang Pengyuan

プレプリント

J-GLOBAL ID：202202214653530239 整理番号：22P0279263

予歪音響および言語モデルによる非自己回帰エンドツーエンド音声認識の改善【JST・京大機械翻訳】

Improving non-autoregressive end-to-end speech recognition with pre-trained acoustic and language models

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (6件)： , , , , ,
資料名：
発行年： 2022年01月25日プレプリントサーバーでの情報更新日： 2022年01月26日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

変換器はエンドツーエンド(E2E)自動音声認識(ASR)において有望な結果を達成したが,それらの自己回帰(AR)構造は復号化プロセスを高速化するためのボトルネックになる。実世界展開のために,ASRシステムは,高速推論を達成しながら,高精度であると望まれる。非自己回帰(NAR)モデルは,それらの速い推論速度のため,一般的な代替案になったが,それらは,認識精度においてARシステムの背後にある。2つの要求を満たすために,本論文では,事前訓練音響と言語モデル:wav2vec2.0とBERTの両方を利用するNAR CTC/注意モデルを提案した。事前訓練モデルから得られた音声とテキスト表現の間のモダリティギャップを橋渡しするために,ロググラフィック言語に対してより適した新しいモダリティ変換機構を設計した。推論の間,著者らは,目標長さを生成するためにCTCブランチを採用して,それは並列でトークンを予測するBERTを可能にした。また,復号化速度を高速に保ちながら,認識精度を改善するために,キャッシュベースのCTC/注意結合復号化法を設計した。実験結果は,提案したNARモデルが,著者らの強いwav2vec2.0CTC基準(AISHELL-1に関して15.1%の相対的CER減少)を,大いに上回ることを示した。提案したNARモデルは,AISHELL-1ベンチマーク上で以前のNARシステムを著しく上回り,英語タスクの可能性を示した。【JST・京大機械翻訳】

, , , , , , , , , , ,
, , , 【Automatic Indexing@JST】

パターン認識

, , , , ,

前のページに戻る