特許
J-GLOBAL ID:200903059686323625

2経路検索による音声認識方法

発明者:
出願人/特許権者:
代理人 (1件): 泉 和人
公報種別:公表公報
出願番号(国際出願番号):特願平7-502266
公開番号(公開出願番号):特表平8-506430
出願日: 1994年05月18日
公開日(公表日): 1996年07月09日
要約:
【要約】本発明の音声認識方法は、2経路の検索を用い、未知の音声の語彙ワードを認識する。語彙中のワードは連鎖状の異音モデルによって表され、語彙はネットワークとして表される。第1経路の検索において、1状態区間に限定されたモデルを語彙ネットワークの検索に用いる。1状態モデルは、対応する異音モデルに対して、そのモデルの遷移確率として、未知の音声の最大観測遷移確率(モデル距離)を有する。上位の計算値を有するワードは、第1経路の検索により選択され、全ビタビトレリスを用いて、完全な異音モデルおよびモデル距離によって再計算が行われる。再計算結果は少数の上位選択を供給するためにストアされる。第2組の音声パラメータを用いて、これら少数の上位選択がさらに再計算される。各組の音声パラメータを用いて導かれた計算値を比較し、認識となる選択を決定する。また後処理を行い認識の正確さを高めることも可能である。実験結果によれば、2経路検索は全ビタビ法による語彙ネットワークの検索とほぼ同程度の認識の正確さが得られた。
請求項(抜粋):
第1組の異音モデルを第1型の音声パラメータベクトルと共に用いるために供給し; 第2組の異音モデルを第2型の音声パラメータベクトルと共に用いるために供給し; 認識語彙を表すネットワークを供給し、そこで、ネットワークの各分岐は異音モデルの1つであり、ネットワークを通じる各全経路は認識語葉中のワードを表わすモデルのシーケンスであり; 第1および第2型の各音声パラメータベクトルに対して音声パラメータベクトルのフレームシーケンスを生成するために未知の音声を分析し; ネットワークの全経路で最尤経路を決定するために減少トレリスを供給し; 第1型の音声パラメータベクトルの各フレームのモデル距離を第1組の全ての異音モデルについて計算し; 第1組の各モデルの最大モデル距離を算出し; 各異音モデルは2フレームの最小区間を有する1状態モデルであり、および遷移確率がその最大モデル距離に等しいと仮定して、全てのフレームについて減少トレリスを更新し; 語彙ネットワークを通じて各経路のトレリスから最終値を検索し; 最も高い最終値を有する第1の複数の認識候補を選択し; 語彙ネットワークに対応する完全なビタビ法のトレリス(棚)を用いて第1組の異音モデルに対して算出されたモデル距離でこの第1の複数候補の再計算を行い; 計算値が大きい順に候補を検索し; 第1の複数候補から第1の候補よりも少ない数の第2の複数候補を選択して、さらに第2組の異音モデルおよび第2型の音声パラメータベクトルを用いて再計算し; 第2型の音声パラメータベクトルのモデル距離計算に対するフレームを認識するために第1型の音声パラメータベクトルを用いて異音セグメンテーションを検索し; 第2の複数候補中に検索される第2組の異音モデルに対して認識される第2型の音声パラメータベクトルのフレームのモデル距離を計算し; ビタビ法を用いて第2組の異音モデルに対し計算されたモデル距離で第2の複数候補を再計算し; 第1および第2型の音声パラメータベクトルに対する第2の複数候補の計算値を比較して認識候補を選択するステップを含むことを特徴とする音声認識方法。

前のページに戻る