特許
J-GLOBAL ID:200903070871109463

話者適応装置および方法

発明者:
出願人/特許権者:
代理人 (1件): 澤田 俊夫
公報種別:公開公報
出願番号(国際出願番号):特願平9-306887
公開番号(公開出願番号):特開平11-143486
出願日: 1997年11月10日
公開日(公表日): 1999年05月28日
要約:
【要約】【課題】 最大事後確率推定法を用いた話者適応において、精度の高い話者適応の能力を実現する。【解決手段】 音響解析部10と同等の音響解析手段を使って、適応対象話者と独立した多数の話者モデルの集合17を用意する。次に、適応対象の話者の音声を入力し、音響解析部10で分析して適応対象話者の特徴パラメータベクトルの分布を求め、適応用サンプル・データ16として保存する。適応モデル作成部15では、適応用サンプル・データ16として保存されている適応対象の話者モデルと話者モデルの集合17として保存されている多数(N個)の話者モデルとの間の距離を測定し、適応対象の話者モデルとの距離が近い順にM個の話者モデルを選ぶ。そして、選択したM個の話者モデルの重み付き加算値を行い初期のモデルを決定する。
請求項(抜粋):
初期話者モデルと適応学習用データとを用いて、最大事後確率推定法によって話者モデルのパラメータを再推定し、話者適応を行う話者適応装置において、事前に、多数の話者から多数の初期話者モデルを作成し、適応対象の話者が発声した適応用学習データから、その適応対象話者の特徴を抽出し、前記多数の初期話者モデルの中から、前記適応対象話者の特徴に距離的に最も近い方からN個の話者モデルを選択し、選択されたN個の話者モデルの各々を事前に仮定された分布として、適応用学習データを使って話者モデルのパラメータを推定し、その推定されたパラメータを持つN個の話者モデルを混合加算することにより適応対象話者の音声モデルを作成することを特徴とする話者適応装置。
IPC (4件):
G10L 3/00 535 ,  G10L 3/00 521 ,  G10L 3/00 531 ,  G10L 3/00
FI (4件):
G10L 3/00 535 ,  G10L 3/00 521 F ,  G10L 3/00 531 F ,  G10L 3/00 531 K

前のページに戻る