特許
J-GLOBAL ID:200903096656779198

声質変換音声合成装置

発明者:
出願人/特許権者:
代理人 (1件): 青山 葆 (外2名)
公報種別:公開公報
出願番号(国際出願番号):特願平9-239532
公開番号(公開出願番号):特開平11-085194
出願日: 1997年09月04日
公開日(公表日): 1999年03月30日
要約:
【要約】【課題】 従来技術に比較して高い精度で声質変換して音声合成することができる声質変換音声合成装置を提供する。【解決手段】 入力層と中間層と出力層とを有し、中間層の各ユニットの出力信号がその入力信号と中心ベクトルを含むガウス関数で表され、出力層の各ユニットの出力信号が中間層の各ユニットの出力信号と各重み係数との線形結合で表され、変換元話者の音声スペクトルを目標話者の音声スペクトルに変換する複素ガウスRBFネットワークを用いて、入力されるテキストデータに基づいて変換元話者の音声スペクトルを目標話者の音声信号に変換して音声合成する。ここで、変換元話者の音声スペクトルに対してクラスタリングして中心ベクトルを演算し、変換元話者の音声スペクトルをネットワークに入力したときに出力される音声スペクトルと、同一の発話内容を有する目標話者の音声スペクトルとの誤差に基づいて誤差が最小となるように各重み係数を更新してネットワークを学習する。
請求項(抜粋):
少なくとも入力層と中間層と出力層とを有し、上記中間層の各ユニットの出力信号がその入力信号と中心ベクトルを含むガウス関数で表され、上記出力層の各ユニットの出力信号が上記中間層の各ユニットの出力信号と各重み係数との線形結合で表され、変換元話者の音声スペクトルを目標話者の音声スペクトルに変換するための複素ガウスRBF(Radial Basis Function)ネットワークを用いて、入力される発声音声文のテキストデータに基づいて変換元話者の音声スペクトルを目標話者の音声に変換して音声合成する声質変換音声合成装置であって、変換元話者の音声スペクトルをテキストデータに対応して記憶する記憶手段と、上記第1の記憶手段に記憶された変換元話者の音声スペクトルに対してクラスタリング処理を実行することにより上記各中心ベクトルを演算する処理手段と、変換元話者の学習データである音声スペクトルを上記複素ガウスRBFネットワークに入力して、上記複素ガウスRBFネットワークから出力される音声スペクトルと、上記変換元話者の学習データである音声スペクトルと同一の発話内容を有する目標話者の学習データである音声スペクトルとの誤差に基づいて、当該誤差が最小となるように上記各重み係数を更新することにより、上記複素ガウスRBFネットワークを学習する学習手段と、入力される発声音声文のテキストデータを、上記記憶手段に記憶された変換元話者の音声スペクトルを参照して、対応する変換元話者の音声スペクトルに変換するデータ変換手段と、上記データ変換手段によって変換された変換元話者の音声スペクトルを、上記学習手段によって学習された複素ガウスRBFネットワークに入力して、当該学習された複素ガウスRBFネットワークから出力される目標話者の音声スペクトルに基づいて音声合成して目標話者の音声信号を出力する音声合成手段とを備えたことを特徴とする声質変換音声合成装置。
IPC (4件):
G10L 7/02 ,  G10L 3/02 ,  G10L 9/18 ,  H03M 7/30
FI (4件):
G10L 7/02 D ,  G10L 3/02 A ,  G10L 9/18 E ,  H03M 7/30 B
引用特許:
審査官引用 (1件)

前のページに戻る