特許
J-GLOBAL ID:200903083594388842

音声認識方法

発明者:
出願人/特許権者:
代理人 (1件): 柿本 恭成
公報種別:公開公報
出願番号(国際出願番号):特願平5-236880
公開番号(公開出願番号):特開平7-092989
出願日: 1993年09月22日
公開日(公表日): 1995年04月07日
要約:
【要約】【目的】 音声認識における音声入力期間の検出を確実にする。【構成】 分析部11は入力信号の特徴を表す第1の特徴ベクトルとパワーを算出し特徴ベクトル記憶部12に保存する。音声区間検出部13は、設定された音声検出用閾値で前記パワーから音声入力期間を検出する。音声入力期間に入力された入力信号の第1の特徴ベクトルと比較パタンに格納されていた認識対象音声の特徴を表す第2の特徴ベクトルとがパタン照合部で比較されて音声認識される。音声検出閾値設定部18は音声認識の結果に基づき、パワー補正テーブル17に格納されている係数を用いて雑音及び発声環境を補正し、音声検出用閾値を更新する。
請求項(抜粋):
入力信号に対してフレーム毎に該入力信号のパワー及びその入力信号の特徴を表す第1の特徴ベクトルを算出して保存する特徴ベクトル算出処理と、音声検出用閾値と前記パワーをフレーム毎に比較して前記入力信号中に音声信号を含んでいる前記フレームを検出し、音声の入力されている音声入力期間を検出する音声区間検出処理と、前記音声入力期間の複数の前記第1の特徴ベクトルで構成された第1の時系列信号と、複数の認識対象音声にそれぞれ対応した複数の第2の特徴ベクトルで構成された第2の時系列信号とを比較し、該第2の時系列信号のうち前記第1の時系列信号に最も類似した時系列信号に対応した認識対象音声名を求める音声認識処理とを、行う音声認識方法において、既に音声認識処理の終了した音声入力期間のうちで過去の直近の音声入力期間における前記パワーのうちの最大音声パワーを求める最大音声パワー算出処理と、前記過去の直近の音声入力期間に対して求められた認識対象音声名から該認識対象音声に対応した補正係数を求め、該補正係数で前記最大音声パワーを補正する最大音声パワー補正処理と、前記音声入力期間以外の期間の前記パワーから雑音の大きさを推定する背景雑音パワー推定処理と、前記最大音声パワー補正処理及び背景雑音パワー推定処理結果から以後の前記音声区間検出処理に用いられる前記音声検出用閾値を更新する音声検出閾値更新処理とを、実行することを特徴とする音声認識方法。
引用特許:
審査官引用 (3件)
  • 特公平5-038957
  • 特開平1-236000
  • 特開昭61-180296

前のページに戻る