nnSpeech:ゼロショットマルチスピーカテキスト対音声のための話者誘導条件付き変分オートエンコーダ【JST・京大機械翻訳】

Zhao Botao; Zhang Xulong; Wang Jianzong; Cheng Ning; Xiao Jing

プレプリント

J-GLOBAL ID：202202210337429865 整理番号：22P0293324

nnSpeech:ゼロショットマルチスピーカテキスト対音声のための話者誘導条件付き変分オートエンコーダ【JST・京大機械翻訳】

nnSpeech: Speaker-Guided Conditional Variational Autoencoder for Zero-shot Multi-speaker Text-to-Speech

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (5件)： , , , ,
資料名：
発行年： 2022年02月22日プレプリントサーバーでの情報更新日： 2022年02月22日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

少数の適応データを用いたマルチ話者テキスト対音声(TTS)は,実用化における挑戦である。これに取り組むために,nnSpeechと名付けたゼロショットマルチ話者TTSを提案し,微調整なしに新しい話者音声を合成でき,1つの適応発話のみを用いた。話者表現モジュールを用いて,新しい話者の特性を抽出し,話者誘導条件付き変分自動符号化器に基づき,話者特性とコンテンツ情報の両方を含む可変Zを生成することができた。潜在変数Z分布は,参照メルスペクトログラムと音素で調整した別の変数によって近似される。英語コーパス,マンダリンコーパス,およびクロスデータセットに関する実験は,著者らのモデルが1つの適応音声だけによって自然で類似した音声を作り出すことができることを証明した。【JST・京大機械翻訳】

, , , , , , , , , , ,
, , , , 【Automatic Indexing@JST】

パターン認識 , 音声処理

, , ,

前のページに戻る