文献
J-GLOBAL ID:201802260182344237   整理番号:18A0656560

話者コードを用いたDNNベースの音声合成

DNN-Based Speech Synthesis Using Speaker Codes
著者 (3件):
資料名:
巻: E101.D  号:ページ: 462-472(J-STAGE)  発行年: 2018年 
JST資料番号: U0469A  ISSN: 1745-1361  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: 日本 (JPN)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
ディープニューラルネットワーク(DNN)に基づく音声合成は,従来のHMMに基づく音声合成よりも自然な合成音声を生成することができる。しかし,マルチ話者音声コーパスを用いて合成音声品質を改善できるか否かは明らかではない。この問題を解決するために,従来の話者依存DNN法を性能向上させる方法として,話者コードを用いたDNNベースの音声合成を提案する。DNNの話者変動をモデル化するために,拡張された特徴(話者コード)が従来のDNNの隠れた層に供給される。本稿では,マルチ話者モデリングと話者適応の2つのタスクの音声合成のための話者コードをDNN音響モデルに導入することの有効性を検討する。マルチ話者モデリングタスクでは,筆者らが提案する方法は,マルチ話者音声コーパスを使用してDNN全体の接続重みをトレーニングする。マルチ話者合成を行う場合,選択されたターゲット話者に対応する話者コードがDNNに供給され,話者の音声が生成される。話者適応を実行するとき,マルチ話者モデルの接続重みの集合が再推定され,新しいターゲット話者の音声が生成される。筆者らは,客観的測定によるDNNの予測性能とアーキテクチャの関係を調べた。客観的評価実験により,提案モデルが従来の手法(HMM,話者依存DNN,共用隠れ層構造に基づくマルチ話者DNN)より優れていることが明らかとなった。(翻訳著者抄録)
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
音声処理  ,  人工知能 
引用文献 (21件):
タイトルに関連する用語 (2件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る