特許
J-GLOBAL ID:201303099822569549

音声合成装置およびそのプログラム

発明者:
出願人/特許権者:
代理人 (2件): 磯野 道造 ,  多田 悦夫
公報種別:公開公報
出願番号(国際出願番号):特願2012-127078
公開番号(公開出願番号):特開2013-250509
出願日: 2012年06月04日
公開日(公表日): 2013年12月12日
要約:
【課題】目的話者の音声データベースが小規模の場合であっても目的話者の声質を再現することができる音声合成装置およびそのプログラムを提供する。【解決手段】音声合成装置1は、目的話者小規模統計モデル・クラスタリング情報作成手段10と、別話者小規模統計モデル作成手段30と、別話者クラスタリング情報作成手段60と、別話者大規模初期モデル作成手段70と、別話者の初期モデルから大規模統計モデルを作成し、大規模初期モデルと大規模統計モデルとの間の写像規則を抽出する写像規則抽出手段80と、目的話者大規模初期モデル作成手段90と、前記した写像規則に従って目的話者の小規模初期モデルを大規模統計モデルへと拡張する統計モデル拡張手段100と、入力文解析手段と110と、統計モデル列挙手段120と、音響特徴量列生成手段130と、音声波形変換手段140と、を備えている。【選択図】図1
請求項(抜粋):
音声合成の対象となる目的話者の音声データと、当該目的話者の音声データよりもデータ数の多い、前記目的話者以外の話者を示す別話者の音声データとを用いて、入力文に対応した前記目的話者の音声を合成する音声合成装置であって、 予め定められた分類規則に従って、前記目的話者の音声データを音素ごとにクラスタリングすることで、前記分類規則によって構築された分類木の情報を含む、前記目的話者のクラスタリング情報を作成するとともに、各クラスタに含まれる前記目的話者の音声データの音響特徴量の統計的パラメータを算出し、当該統計的パラメータをクラスタごとに平均化することで、前記目的話者の小規模統計モデルを作成する目的話者小規模統計モデル・クラスタリング情報作成手段と、 前記目的話者のクラスタリング情報に従って、前記別話者の音声データを音素ごとにクラスタリングした後、各クラスタに含まれる前記別話者の音声データの音響特徴量の統計的パラメータを算出し、当該統計的パラメータをクラスタごとに平均化することで、前記別話者の小規模統計モデルを作成する別話者小規模統計モデル作成手段と、 予め定められた分類規則に従って、前記別話者の音声データを音素ごとにクラスタリングすることで、前記目的話者のクラスタリング情報に含まれる分類木よりも多くの分類規則によって構築された分類木の情報を含む、前記別話者のクラスタリング情報を作成する別話者クラスタリング情報作成手段と、 前記別話者のクラスタリング情報に従って、前記別話者の小規模統計モデルの各クラスタに含まれる前記別話者の音声データを再度クラスタリングした後、各クラスタに含まれる前記別話者の音声データに対応する統計的パラメータであって、前記別話者小規模統計モデル作成手段によって算出および平均化された統計的パラメータを、再度クラスタリングされたクラスタごとに平均化することで、前記別話者の大規模初期モデルを作成する別話者大規模初期モデル作成手段と、 前記別話者の大規模初期モデルの各クラスタの統計的パラメータを、前記別話者の音声データの対数尤度が最大化するように線形変換することで、前記別話者の大規模統計モデルを作成するとともに、前記別話者の大規模初期モデルの各クラスタの統計的パラメータと、前記別話者の大規模統計モデルの各クラスタの統計的パラメータとの対応関係を示す写像規則を抽出する写像規則抽出手段と、 前記別話者のクラスタリング情報に従って、前記目的話者の小規模統計モデルの各クラスタに含まれる音声データを再度クラスタリングした後、各クラスタに含まれる音声データに対応する統計的パラメータであって、前記目的話者小規模統計モデル・クラスタリング情報作成手段によって算出および平均化された統計的パラメータを、再度クラスタリングされたクラスタごとに平均化することで、前記目的話者の大規模初期モデルを作成する目的話者大規模初期モデル作成手段と、 前記写像規則に従って、前記目的話者の大規模初期モデルの各クラスタの統計的パラメータを線形変換することで、前記目的話者の大規模初期モデルを前記目的話者の大規模統計モデルへと拡張する統計モデル拡張手段と、 前記入力文を解析し、統計モデルの単位である音素ごとに分割する入力文解析手段と、 前記入力文解析手段による解析結果に従って、前記入力文に対応する前記目的話者の大規模統計モデルを音素ごとに列挙する統計モデル列挙手段と、 前記統計モデル列挙正手段によって列挙された前記目的話者の大規模統計モデルの列を平滑化し、前記入力文に対応する音響特徴量の列として出力する音響特徴量列生成手段と、 前記音響特徴量列生成手段によって生成された前記音響特徴量の列を音声波形に変換する音声波形変換手段と、 を備えることを特徴とする音声合成装置。
IPC (2件):
G10L 13/06 ,  G10L 25/48
FI (3件):
G10L13/06 250 ,  G10L13/06 130 ,  G10L11/00 407
引用特許:
審査官引用 (1件)

前のページに戻る