Pat
J-GLOBAL ID:200903054946165814

音声認識方法

Inventor:
Applicant, Patent owner:
Agent (1): 大垣 孝
Gazette classification:公開公報
Application number (International application number):1995225224
Publication number (International publication number):1997068996
Application date: Sep. 01, 1995
Publication date: Mar. 11, 1997
Summary:
【要約】【課題】 隠れマルコフモデルを標準パタンに用いた音声認識において認識速度を向上する。【解決手段】 無相関混合正規分布を備える隠れマルコフモデルから入力音声特徴ベクトルの出力確率を求める場合に、無相関混合正規分布の各正規分布から求まる出力確率のうち最大の出力確率を、入力音声特徴ベクトルの出力確率とする。各正規分布から求まる出力確率を算出する際に、直前のフレームにおいて無相関混合正規分布の第Q番目の正規分布から求めた出力確率が最大となった場合には、次のフレームにおいても第Q番目の正規分布から求めた出力確率が最大となる可能性が高い。従ってこの第Q番目の正規分布から求めた出力確率を最大値候補として、各正規分布から求める出力確率を算出途上で最大値候補と比較し、その比較結果に応じて出力確率の算出を打ち切ることにより目的を達成できる。
Claim (excerpt):
隠れマルコフモデルを音声標準パタンとし、該隠れマルコフモデルは、互いに無相関な複数個の正規分布を有し当該モデルから出力される音声シンボルベクトルの出力確率を表す無相関混合正規分布を備え、音声区間内の始端フレームから終端フレームまでに抽出された入力音声特徴ベクトルの時系列と隠れマルコフモデルとの間の尤度を、各入力音声特徴ベクトルの出力確率の対数値を用いて、計算し、最大の尤度を得た隠れマルコフモデルに付与されているカテゴリ名を、当該音声区間の入力音声信号に対する認識結果とする音声認識方法において、bij(xt):総個数M個の正規分布を有する無相関混合正規分布を備えた隠れマルコフモデルから、第t番目のフレームで抽出された入力音声特徴ベクトルxt が出力される出力確率(1≦t≦T。第1番目のフレームは音声区間の始端フレーム、及び、第T番目のフレームは音声区間の終端フレームを表す。)、gijm(xt) :総個数M個の正規分布において第m番目(1≦m≦M。)の正規分布から算出される入力音声特徴ベクトルxt の重み付け確率(但し、gijm(xt) =λijm bijm(xt) 、bijm(xt) =(2π)-p/2ijm |-1/2exp {-Dijmt2 /2}、Dijmt2 =(xtijm )’ρijm-1 (xtijm )、λijm :第m番目の正規分布の重み、bijm(xt) :第m番目の正規分布から算出される入力音声特徴ベクトルxt の重み無し確率、p:入力音声特徴ベクトルxt の次数、ρijm :第m番目の正規分布の分散・供分散行列、μijm :第m番目の正規分布の平均ベクトル、Dijmt:入力音声特徴ベクトルxt と第m番目の正規分布との間の距離を表すマハラビスの汎距離。)、Gijm(xt) :重み付け確率gijm(xt) の対数値(但し、Gijm(xt) =Eijm -Dijmt2 /2、Eijm =ln(λijm )+ln{(2π)-p/2ijm |-1/2}。)とするとき、総個数M個の各正規分布から算出される重み付け確率gijm(xt) の対数値Gijm(xt) のなかで最大の対数値Gijm(xt) を、入力音声特徴ベクトルxt の出力確率bij(xt)の対数値に用いて、隠れマルコフモデルとの間の尤度を計算するに当り、t≧2のときに第t番目のフレームにおいて最大の対数値Gijm(xt) を検出するための最大値候補と、t≧2のときに第t-1番目のフレームにおいて最大の対数値Gijm(xt) を得た正規分布がいずれであるかを表すインデックスとを格納する参照情報記憶部を設け、t=1では、総個数M個の全正規分布について各正規分布毎に対数値Gijm(xt) を算出して、最大の対数値Gijm(xt) を検出し、該最大の対数値Gijm(xt) を第1番目のフレームにおける入力音声特徴ベクトルxt の出力確率bij(xt)の対数値とすると共に該最大の対数値Gijm(xt) を得た正規分布に対応するインデックスを格納し、t≧2では、(1)まずインデックスに対応する正規分布を用いて算出した対数値Gijm(xt)を最大値候補として格納し、(2)総個数M個の正規分布のうちインデックスに対応しない残りの正規分布を用いた対数値Gijm(xt) の算出では、-Dijmt2 /2の項を算出するための演算の一又は複数の演算間隔毎に、算出途上の対数値Gijm(xt) を、最大値候補と比較し、(3-A)算出途上の対数値Gijm(xt) が最大値候補より小さくなったら、当該対数値Gijm(xt) の算出を終了し、然る後、残りの次の正規分布につき対数値Gijm (xt)の算出を開始し、(3-B)算出途上の対数値Gijm(xt) が最大値候補より小さくなることなく、当該対数値Gijm(xt) の算出を終了したら、最大値候補を当該対数値Gijm (xt)に書き換え、然る後、残りの次の正規分布につき対数値Gijm(xt) の算出を開始し、(4)総個数M個の全正規分布について対数値Gijm(xt) の算出を終了したら、このとき格納されている最大値候補を得た正規分布に対応するインデックスに、参照情報記憶部のインデックスを書換えると共に、当該最大値候補を、出力確率bij(xt)の対数値に用いて、隠れマルコフモデルとの間の尤度を計算することを特徴とする音声認識方法。
IPC (2):
G10L 3/00 535 ,  G10L 3/00 521
FI (2):
G10L 3/00 535 ,  G10L 3/00 521 C

Return to Previous Page