特許
J-GLOBAL ID:200903044905924195

不特定話者音響モデル生成装置及び音声認識装置

発明者:
出願人/特許権者:
代理人 (1件): 青山 葆 (外2名)
公報種別:公開公報
出願番号(国際出願番号):特願平9-242513
公開番号(公開出願番号):特開平11-085186
出願日: 1997年09月08日
公開日(公表日): 1999年03月30日
要約:
【要約】【課題】 不特定話者音声認識において、従来技術に比較して音声認識率を改善する。【解決手段】 話者正規化制御部20は、各話者の音声データの特徴ベクトルに基づいて初期HMMに対してMLLR法により変換係数を各話者毎に演算して適応されたHMMを得た後、音声データとその発話内容からビタビ・アルゴリズムを用いて最適状態系列を演算し、各時刻の最適状態毎に音声データの特徴ベクトルが最大出力確率を示す混合分布系列を演算し、最適状態系列の各状態内の混合分布の話者適応化前後の平均ベクトルを用いて、音声データの特徴ベクトルを話者正規化し、初期HMMを学習アルゴリズムを用いて学習して話者正規化されたHMMのモデルパラメータを演算する。不特定話者化制御部21は、MLLR法により変換係数を各話者毎に演算し、さらに不特定話者化して不特定話者化されたHMMを得る。
請求項(抜粋):
複数の話者にそれぞれ依存する音声データの特徴ベクトルに基づいて、所定の隠れマルコフモデルの初期モデルに対して、最尤線形回帰法により、重回帰写像モデルに基づく平均ベクトルの変換のための変換行列と定数項ベクトルを含む第1の変換係数を上記各話者毎に演算することにより、上記各話者毎に適応された隠れマルコフモデルを得る第1の演算手段と、上記第1の演算手段によって得られた上記各話者毎に適応された隠れマルコフモデルに基づいて、上記音声データとその発話内容のテキストデータから、ビタビ・アルゴリズムを用いて、最適状態系列を演算し、各時刻の最適状態毎に上記音声データの特徴ベクトルが最大出力確率を示す混合分布系列を演算する第2の演算手段と、上記第2の演算手段によって演算された最適状態系列の各状態内の混合分布の話者適応化前後の平均ベクトルを用いて、上記音声データの特徴ベクトルを話者正規化することにより、話者正規化された音声データの特徴ベクトルを演算する第3の演算手段と、上記第3の演算手段によって演算された正規化された音声データの特徴ベクトルに基づいて、上記隠れマルコフモデルの初期モデルを、所定の学習アルゴリズムを用いて学習することにより、話者正規化された隠れマルコフモデルのモデルパラメータを演算する第4の演算手段と、上記第4の演算手段によって演算された話者正規化された隠れマルコフモデルに対して、最尤線形回帰法により、重回帰写像モデルに基づく平均ベクトルの変換のための変換行列と定数項ベクトルを含む第2の変換係数を上記各話者毎に演算することにより、上記各話者毎に適応された隠れマルコフモデルの平均ベクトルを得る第5の演算手段と、上記第5の演算手段によって得られた適応された隠れマルコフモデルの平均ベクトルと、上記第4の演算手段によって演算された話者正規化された隠れマルコフモデルのモデルパラメータとに基づいて、不特定話者化することにより、不特定話者化された隠れマルコフモデルの平均ベクトルと共分散行列を演算して、不特定話者化された隠れマルコフモデルを得る第6の演算手段とを備えたことを特徴とする不特定話者音響モデル生成装置。
IPC (3件):
G10L 3/00 535 ,  G10L 3/00 521 ,  G10L 3/00 531
FI (3件):
G10L 3/00 535 ,  G10L 3/00 521 F ,  G10L 3/00 531 K

前のページに戻る