DNNベースのTTS合成のための複数話者のモデル化と話者適応

FAN Yuchen; QIAN Yao; SOONG Frank K.; HE Lei

文献

J-GLOBAL ID：201602259643203594 整理番号：16A0544284

DNNベースのTTS合成のための複数話者のモデル化と話者適応

MULTI-SPEAKER MODELING AND SPEAKER ADAPTATION FOR DNN-BASED TTS SYNTHESIS

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=16A0544284&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=16A0544284&from=J-GLOBAL&jstjournalNo=E0316B") }}

著者 (4件)： , , ,
資料名：
巻： 2015 Vol.6 ページ： 4475-4479 発行年： 2015年
JST資料番号： E0316B ISSN： 1520-6149 資料種別：会議録 (C)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

本論文では,隠れ層が各話者間で共有されている一方で,回帰層が話者に依存している様な,複数話者ディープニューラルネットワーク(DNN)を提案した。各話者が共有している隠れ層と別々の話者のための回帰層は,複数の話者依存の文書音声読上げ(TTS)コーパスにより合同で訓練した。共有の隠れ層は,任意の話者が使用できるグローバルな言語的特徴変換と見なすことができた。実際に複数話者DNNのアーキテクチャと訓練手順は,マルチタスク学習のインスタンスである。そこでは複数の関連タスクを持つモデルが組み合わされて,それらが共有知識により強化された。また共有の言語的特徴変換は,転送学習により派生した新しい話者に転送することもできた。非常に限られた訓練データのみを持つ新規の話者に対する話者適応は,共有隠れ層を固定し,回帰層を更新することによって達成できた。今後は本提案の方法を,より多くの話者とかなり大きなコーパスに適用して行く。

, , , , , , , , ,
, , , , , , , ,

音声処理 , ニューロコンピュータ , 人工知能 , 聴覚・音声モデル

, ,

前のページに戻る