エンドツーエンド教師なし音声認識に向けて【JST・京大機械翻訳】

Liu Alexander H.; Hsu Wei-Ning; Auli Michael; Baevski Alexei

プレプリント

J-GLOBAL ID：202202203748229747 整理番号：22P0326914

エンドツーエンド教師なし音声認識に向けて【JST・京大機械翻訳】

Towards End-to-end Unsupervised Speech Recognition

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (4件)： , , ,
資料名：
発行年： 2022年04月05日プレプリントサーバーでの情報更新日： 2022年06月15日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

教師なし音声認識は,あらゆる言語にアクセス可能な自動音声認識(ASR)システムを作る大きな可能性を示した。しかし,既存の方法は,まだ手作業前処理に頼っている。教師付き音声認識エンドツーエンドの動向と同様に,著者らは,すべてのオーディオ側前処理で離れて,より良いアーキテクチャを通して精度を改善するwav2vec-U2.0を導入する。さらに,著者らは,入力に逆のモデル予測を行う補助自己監督目的を導入した。実験は,wav2vec-U2.0が,概念的に単純である間,異なる言語を通して教師なし認識結果を改善することを示した。【JST・京大機械翻訳】

, , , , , ,
, , 【Automatic Indexing@JST】

パターン認識

, ,

前のページに戻る