音声認識,音声強調および自己教師付き学習表現のエンドツーエンド統合【JST・京大機械翻訳】

Chang Xuankai; Maekaku Takashi; Fujita Yuya; Watanabe Shinji

プレプリント

J-GLOBAL ID：202202200008697306 整理番号：22P0324037

音声認識,音声強調および自己教師付き学習表現のエンドツーエンド統合【JST・京大機械翻訳】

End-to-End Integration of Speech Recognition, Speech Enhancement, and Self-Supervised Learning Representation

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (4件)： , , ,
資料名：
発行年： 2022年04月01日プレプリントサーバーでの情報更新日： 2022年04月01日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

本研究は,自己教師付き学習表現(IRIS)のための強化音声入力による統合音声認識と呼ばれる,ロバストな音声認識で標的化するエンドツーエンド(E2E)自動音声認識(ASR)モデルを提示する。従来のE2E ASRモデルと比較して,提案したE2Eモデルは,音声強調(SE)モジュールと自己監督学習表現(SSLR)モジュールを含む2つの重要なモジュールを統合した。SEモジュールは雑音の多い音声を強化する。次に,SSLRモジュールは,音声認識(ASR)のために使用する強化音声から特徴を抽出した。提案モデルを訓練するために,効率的な学習方式を確立した。Monaural CHiME-4タスクに関する評価結果は,IRISモデルが,強力な事前訓練SSLRモジュールと微調整SEモジュールのおかげで,単一チャネルCHiME-4ベンチマーク(実開発で2.0%,実テストで3.9%)に関する文献で報告された最良の性能を達成することを示した。【JST・京大機械翻訳】

, , , , , , , , , , ,
, , , 【Automatic Indexing@JST】

パターン認識

, , , , , ,

前のページに戻る