統計的パラメトリック音声合成における音響モデリングのための深層混合密度ネットワーク

ZEN Heiga; SENIOR Andrew

文献

J-GLOBAL ID：201402230234788962 整理番号：14A1265269

統計的パラメトリック音声合成における音響モデリングのための深層混合密度ネットワーク

DEEP MIXTURE DENSITY NETWORKS FOR ACOUSTIC MODELING IN STATISTICAL PARAMETRIC SPEECH SYNTHESIS

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=14A1265269&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=14A1265269&from=J-GLOBAL&jstjournalNo=E0316B") }}

著者 (2件)： ,
資料名：
巻： 2014 Vol.5 ページ： 3844-3848 発行年： 2014年
JST資料番号： E0316B ISSN： 1520-6149 資料種別：会議録 (C)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

深層ニューラル・ネットワーク(DNN)を使った統計的パラメトリック音声合成(SPSS)は自然に聞こえる合成音声を作り出せるが,目的関数の単一モード性や分散予測ができないといった限界がある。これらの限界に対処するため,本論文は,SPSSに対する音響モデルとして混合密度ネットワーク(MDN)を使用することを検討した。MDNは,入力特徴で条件付けられた実数値の出力特徴にわたり完全な確率密度関数を与えることができる。このことは,Gauss混合モデル(GMM)による入力特徴を与えられたときに,出力特徴の条件付き確率分布をモデリングすることで達成される。その際のパラメータは,対数ゆう度型損失関数で訓練された人工ニューラルネットワーク(ANN)を使って生成される。MDNを使用することにより,マルチモードの回帰と分散予測が可能となる。客観的及び主観的評価による実験結果から,MDN出力層の使用が,音響特徴の予測正確さと合成音声の自然さを改善することを示した。

, , , , , , ,
, ,

音声処理 , 自然語処理

, , , ,

前のページに戻る