話者検証のための時間領域GANを用いた結合領域適応と音声帯域幅拡張【JST・京大機械翻訳】

Kataria Saurabh; Villalba Jesus; Moro-Velazquez Laureano; Dehak Najim

プレプリント

J-GLOBAL ID：202202216325561782 整理番号：22P0322835

話者検証のための時間領域GANを用いた結合領域適応と音声帯域幅拡張【JST・京大機械翻訳】

Joint domain adaptation and speech bandwidth extension using time-domain GANs for speaker verification

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (4件)： , , ,
資料名：
発行年： 2022年03月30日プレプリントサーバーでの情報更新日： 2022年03月30日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

音響ドメインとサンプリング周波数の特定の選択のために開発された音声システムは,容易に他のものには変換しない。通常の実践は,ドメイン適応と帯域幅拡張モデルを独立に学習することである。これに反して,両タスクを一緒に学習することを提案する。特に,狭帯域会話電話音声を広帯域マイクロホン音声に写像する。ペアと不対データの両方を利用する並列と非並列学習解を開発した。第1に,著者らは最初に,著者らのタスクのための多重生成モデルの関節と解体訓練について議論する。次に,帯域幅拡張訓練における前処理のために事前訓練領域適応システムを使用する2段階学習解法を提案した。Speker検証下流タスクに関する著者らの方式を評価した。SRE16,SRE-CTSスーパーセットおよびSRE21から成るNIST SRE21のためのJHU-MIT実験セットアップを用いた。著者らの結果は,両方のタスクの学習が,ただ1つを学習するよりも良好であるという最初の証拠を提供する。SRE16上で,著者らの最良システムは,Equal Error rate w.r.t.t.の直接学習ベースラインと8%w.r.t.の強い帯域幅拡張システムにおいて22%の相対的改善を達成した。【JST・京大機械翻訳】

, , , , , , , , , , ,
, , , , 【Automatic Indexing@JST】

音声処理 , パターン認識

, , , , , , ,

前のページに戻る