特許
J-GLOBAL ID:200903038253941661

音声認識装置およびその方法

発明者:
出願人/特許権者:
代理人 (1件): 曾我 道照 (外6名)
公報種別:公開公報
出願番号(国際出願番号):特願平10-053714
公開番号(公開出願番号):特開平11-249688
出願日: 1998年03月05日
公開日(公表日): 1999年09月17日
要約:
【要約】【課題】 統計的知識に基づくリジェクトの判定可能な音声認識装置を得る。【解決手段】 手段6で入力音声の特徴ベクトルの時系列4と標準パタンモデル5を照合して認識結果の音素記号列8を求め、手段15で時系列4と音素記号列8を構成する音素とを時間軸上で対応付けた音素セグメンテーション結果16を求め、手段17で結果16の各音素区間毎に全ての音素モデル14と照合を行ない、各音素区間の当該音素モデルの尤度、およびこの尤度と当該音素モデル以外での尤度の最高値との差分で構成される信頼度パラメータ18を計算する。そして手段21で正しいおよび誤った音素区間に対する前記信頼度パラメータの統計分布をモデル化したモデル19、20で前記認識結果の音素記号列を構成する各音素の信頼度を算出し統合して前記認識結果の音素記号列全体の信頼度を求め、所定の閾値と前記音素記号列全体の信頼度の比較よりリジェクト判定。
請求項(抜粋):
入力音声信号を音響分析して特徴ベクトルの時系列を出力する分析手段と、認識対象とする音声をモデル化した標準パタンモデルと、前記入力音声の特徴ベクトルの時系列と標準パタンモデルとの照合を行い、認識結果の音素記号列を出力する照合手段と、全ての音素をモデル化した音素モデルと、前記入力音声の特徴ベクトルの時系列と前記認識結果の音素記号列を構成する音素とを時間軸上で対応付けた音素セグメンテーション結果を出力するセグメンテーション手段と、前記音素セグメンテーション結果の各音素区間ごとに前記全ての音素モデルと照合を行ない、(a)各音素区間の当該音素モデルの尤度、(b)前記当該音素モデルの尤度と当該音素モデル以外での尤度の最高値との差分、とで構成される信頼度パラメータを計算して出力する信頼度パラメータ計算手段と、正しい音素区間に対する前記信頼度パラメータの統計分布をモデル化した正解音素区間尤度統計モデルと、誤った音素区間に対する前記信頼度パラメータの統計分布をモデル化した不正解音素区間尤度統計モデルと、前記信頼度パラメータ計算手段の出力である認識結果の音素記号列の信頼度パラメータを入力として各音素区間毎に前記正解音素区間尤度統計モデルと不正解音素区間尤度統計モデルとの尤度差を求めて各音素区間の信頼度を算出し、前記各音素の信頼度の和をとることによって前記認識結果の音素記号列全体の信頼度を求め、予め設定された閾値と前記音素記号列全体の信頼度との比較によってリジェクトを行なう検証手段と、この検証手段によって前記認識結果の音素記号列がリジェクトされなかった場合に前記認識結果の音素記号列を出力する結果出力手段と、を備えたことを特徴とする音声認識装置。
IPC (2件):
G10L 3/00 561 ,  G10L 3/00 515
FI (2件):
G10L 3/00 561 B ,  G10L 3/00 515 C

前のページに戻る