リストン,適応,より良いWER:自動音声認識のためのソースフリー単一発話試験時間適応【JST・京大機械翻訳】

Lin Guan-Ting; Li Shang-Wen; Lee Hung-yi

プレプリント

J-GLOBAL ID：202202217199580233 整理番号：22P0310872

リストン,適応,より良いWER:自動音声認識のためのソースフリー単一発話試験時間適応【JST・京大機械翻訳】

Listen, Adapt, Better WER: Source-free Single-utterance Test-time Adaptation for Automatic Speech Recognition

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (3件)： , ,
資料名：
発行年： 2022年03月27日プレプリントサーバーでの情報更新日： 2022年06月21日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

深層学習ベースのエンドツーエンド自動音声認識(ASR)は近年顕著な性能を示しているが,異なるデータ分布から引き出されるテストサンプルで厳しい性能回帰に悩まされている。コンピュータビジョン領域で以前に探索された試験時間適応(TTA)は,ソースドメインに訓練されたモデルを適応させ,ソースデータにアクセスすることなく,しばしばドメイン外のテストサンプルに対するより良い予測を与える。ここでは,ASRに対する単一Utterance Test-time Adaptation(SUTA)フレームワークを提案し,これはASRに関する最初のTTA研究である。単音TTAは,試験データを同一分布からサンプリングしないより現実的な設定であり,適応データのバッチに対する事前収集によるオンデマンド推論を遅延しない。SUTAは,効率的な適応戦略を有する教師なし目的から成る。経験的結果は,SUTAが,多重領域外ターゲットコーパスとドメイン内試験サンプルで評価されたソースASRモデルの性能を効果的に改善することを証明した。【JST・京大機械翻訳】

, , , , , , , ,
, , , , 【Automatic Indexing@JST】

パターン認識

, , , ,

前のページに戻る