文献
J-GLOBAL ID:201402230234788962   整理番号:14A1265269

統計的パラメトリック音声合成における音響モデリングのための深層混合密度ネットワーク

DEEP MIXTURE DENSITY NETWORKS FOR ACOUSTIC MODELING IN STATISTICAL PARAMETRIC SPEECH SYNTHESIS
著者 (2件):
資料名:
巻: 2014 Vol.5  ページ: 3844-3848  発行年: 2014年 
JST資料番号: E0316B  ISSN: 1520-6149  資料種別: 会議録 (C)
記事区分: 原著論文  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
深層ニューラル・ネットワーク(DNN)を使った統計的パラメトリック音声合成(SPSS)は自然に聞こえる合成音声を作り出せるが,目的関数の単一モード性や分散予測ができないといった限界がある。これらの限界に対処するため,本論文は,SPSSに対する音響モデルとして混合密度ネットワーク(MDN)を使用することを検討した。MDNは,入力特徴で条件付けられた実数値の出力特徴にわたり完全な確率密度関数を与えることができる。このことは,Gauss混合モデル(GMM)による入力特徴を与えられたときに,出力特徴の条件付き確率分布をモデリングすることで達成される。その際のパラメータは,対数ゆう度型損失関数で訓練された人工ニューラルネットワーク(ANN)を使って生成される。MDNを使用することにより,マルチモードの回帰と分散予測が可能となる。客観的及び主観的評価による実験結果から,MDN出力層の使用が,音響特徴の予測正確さと合成音声の自然さを改善することを示した。
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
音声処理  ,  自然語処理 
タイトルに関連する用語 (5件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る