AdaSpeech 4:ゼロショットシナリオにおける音声への適応テキスト【JST・京大機械翻訳】

Wu Yihan; Tan Xu; Li Bohan; He Lei; Zhao Sheng; Song Ruihua; Qin Tao; Liu Tie-Yan

プレプリント

J-GLOBAL ID：202202213180923452 整理番号：22P0323933

AdaSpeech 4:ゼロショットシナリオにおける音声への適応テキスト【JST・京大機械翻訳】

AdaSpeech 4: Adaptive Text to Speech in Zero-Shot Scenarios

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (8件)： , , , , , , ,
資料名：
発行年： 2022年04月01日プレプリントサーバーでの情報更新日： 2022年04月01日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

音声に対する適応テキスト(TTS)は,新しい話者の音声データにそれに適応することなく,よく訓練されたソースTTSモデルを用いることにより,ゼロショットシナリオで効率的に新しい音声を合成することができる。見えない話者と見せない話者は多様な特性を持ち,ゼロショット適応TTSは話者特性に強い一般化能力を必要とし,モデリングの課題をもたらす。本論文では,高品質音声合成用のゼロショット適応TTSシステムAdaSpeech4を開発した。話者特性を系統的にモデル化し,新しい話者の一般化を改善した。一般的に,話者特徴のモデリングは3つのステップに分類できる:話者表現の抽出,この話者表現を条件として,この話者表現を与えられた音声/mel-スペクトログラムを合成する。従って,3段階でモデリングを改善した。1)より良い一般化による話者表現を抽出するため,話者特性を基底ベクトルに因数化し,これらの基底ベクトルの重みづけ結合によって話者表現を,注意を通して抽出する。2)抽出話者表現をTTSモデルに統合するために条件付き層正規化を利用した。3)著者らは,生成されたメルスペクトログラムにおける対応する話者特性を維持するために,基底ベクトルの分布に基づく新しい監視損失を提案した。微調整なしで,AdaSpeech 4は複数のデータセットにおいてベースラインよりもより良い音声品質と類似性を達成した。【JST・京大機械翻訳】

, , , , , , , , , , ,
, , , , , , 【Automatic Indexing@JST】

音声処理

, , ,

前のページに戻る