中国語音声合成のための階層的文脈情報によるマルチスケール発話スタイルモデリングに向けて【JST・京大機械翻訳】

Lei Shun; Zhou Yixuan; Chen Liyang; Hu Jiankun; Wu Zhiyong; Kang Shiyin; Meng Helen

プレプリント

J-GLOBAL ID：202202208110388947 整理番号：22P0327165

中国語音声合成のための階層的文脈情報によるマルチスケール発話スタイルモデリングに向けて【JST・京大機械翻訳】

Towards Multi-Scale Speaking Style Modelling with Hierarchical Context Information for Mandarin Speech Synthesis

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (7件)： , , , , , ,
資料名：
発行年： 2022年04月06日プレプリントサーバーでの情報更新日： 2022年07月05日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

表現的音声合成に関する以前の研究は,現在の文章またはコンテキストからのモノスケールスタイル埋込みのモデリングに焦点を合わせているが,人間の音声における発話スタイルのマルチスケール性質は無視されている。本論文では,合成音声の自然性と表現性を改善するために,マルチスケール発話スタイルを捉え,予測するためのマルチスケール発話スタイルモデリング法を提案した。複数スケール抽出器を,地上トラス音声から3つの異なるレベルで発話スタイル埋込みを抽出するために提案して,階層的文脈情報に基づくマルチスケールスタイル予測子の訓練を明示的に誘導する。マンダリンオーディオブックデータセットに関する客観的および主観的評価の両者は,提案手法が合成音声の自然性と表現性を著しく改良できることを示した。【JST・京大機械翻訳】

, , , , , , , , ,
, , , , , , 【Automatic Indexing@JST】

音声処理

, , , , , ,

前のページに戻る