特許
J-GLOBAL ID:200903094993494593

単語音声認識システムにおける環境適応装置

発明者:
出願人/特許権者:
代理人 (1件): 志賀 富士弥 (外1名)
公報種別:公開公報
出願番号(国際出願番号):特願平10-024996
公開番号(公開出願番号):特開平11-224098
出願日: 1998年02月06日
公開日(公表日): 1999年08月17日
要約:
【要約】【課題】 音素認識性能を向上させ、もって単語認識性能の向上を図るようにした。【解決手段】 音声入力装置41からの入力音声データに対してフレーム毎に平均エネルギを計算し、あらかじめ設定した閾値により、有音区間であるか、無音区間であるかを有音・無音区間判定部11で判定する。この判定部11での判定結果に応じて、フレーム毎に特徴抽出部42で周波数分析する。この特徴抽出部42での周波数分析の後、有音・無音区間分配部12で有音と無音区間を分配し、有音区間なら入力音声の有音区間の音声スペクトルは音素認識部43に供給する。また、無音区間なら入力音声の無音区間の音声スペクトルは、雑音スペクトル抽出部51で得られる推定雑音スペクトル51dから引算部52で引き算されて雑音成分が除去される。
請求項(抜粋):
音声入力装置より入力された単語音声データを周波数分析し、それを出力多重化ニューラルネットに入力させて音素認識を行わせて、認識音素第1位音素候補と第2位音素候補を得、その認識された音素候補列と、認識させたい語彙の音素パターンを持たせた辞書中のテンプレートとの類似度を、テンプレート中の音素と認識された音素候補列中の第1位および第2位候補との類似度を局所スコアとし、その局所スコアをDTW法によって累積することで、全体の類似度スコアを求めた後、認識させたい全ての語彙の中で、その類似度スコアが最小となる単語を認識結果として出力する単語音声認識システムにおいて、前記音声入力装置から出力される音声データを周波数分析する前に、そのデータの有音、無音を有音・無音判定部で判定してから周波数分析し、前記判定部で有音と判定されたなら、その有音区間の音声スペクトルは前記ニューラルネットに供給し、前記判定部で無音と判定されたなら、その無音区間の音声スペクトルからあらかじめ推定した雑音スペクトルを引いて雑音成分を除去して前記ニューラルネットに供給したことを特徴とする単語音声認識システムにおける環境適応装置。
IPC (3件):
G10L 9/10 301 ,  G10L 3/00 531 ,  G10L 3/02 301
FI (3件):
G10L 9/10 301 C ,  G10L 3/00 531 D ,  G10L 3/02 301 D

前のページに戻る