特許
J-GLOBAL ID:200903072660419620

音声認識方法

発明者:
出願人/特許権者:
代理人 (1件): 志賀 富士弥 (外1名)
公報種別:公開公報
出願番号(国際出願番号):特願平6-191699
公開番号(公開出願番号):特開平8-054892
出願日: 1994年08月16日
公開日(公表日): 1996年02月27日
要約:
【要約】【目的】 離散単語発声文を認識するにおいて、発声音に含まれる不要語を排除し、認識対象となる本来の入力単語のみを認識できるようにする。【構成】 離散単語発声文の音声区間を検出する音声スポッティング処理S1と、検出された音声区間毎の各フレーム毎の特徴ベクトル時系列を求め、この特徴ベクトル時系列を音素ラベル時系列に変換し、この音素ラベル時系列と辞書として持つ音素ラベル時系列の標準テンプレートとの類似度を端点固定DPマッチング法で求めて単語認識する単語認識処理S2と、認識された各単語候補の内から標準パターンとの類似度から絞り込みを行う単語判定処理S3とによる音声認識方法において、有音部のみに対して端点固定DPマッチングによる類似度を求め、この類似度を最小にする標準テンプレートを単語認識結果とする。
請求項(抜粋):
離散単語発声文の音声区間を検出する音声スポッティング処理と、検出された音声区間毎の各フレーム毎の特徴ベクトル時系列を求め、この特徴ベクトル時系列を音素ラベル時系列に変換し、この音素ラベル時系列と辞書として持つ音素ラベル時系列の標準テンプレートとの類似度を端点固定DPマッチング法で求めて単語認識する単語認識処理と、認識された各単語候補の内から標準パターンとの類似度から絞り込みを行う単語判定処理とを備えたOne Pass DPマッチング法による音声認識方法において、前記端点固定DPマッチング処理は、音声区間の無音部から有音部に変化する始点から、有音部から無音部に変化する終点までの音声区間と前記標準テンプレートとの類似度SSを次式、【数1】Sn(i,j):入力音声の第iフレームと第n標準パターンの第jフレーム間のDPマッチングスコア。d(Ai,Bnj):入力音声の第iフレームと第n標準パターンの第jフレーム間の部分距離。min():3つのスコアの中の最小値。にしたがって求め、前記類似度SSを最小にする標準テンプレートの単語を当該音声区間の単語候補とすることを特徴とする音声認識方法。
IPC (3件):
G10L 3/00 533 ,  G10L 3/00 531 ,  G10L 3/00

前のページに戻る