Pat
J-GLOBAL ID:200903072660419620

音声認識方法

Inventor:
Applicant, Patent owner:
Agent (1): 志賀 富士弥 (外1名)
Gazette classification:公開公報
Application number (International application number):1994191699
Publication number (International publication number):1996054892
Application date: Aug. 16, 1994
Publication date: Feb. 27, 1996
Summary:
【要約】【目的】 離散単語発声文を認識するにおいて、発声音に含まれる不要語を排除し、認識対象となる本来の入力単語のみを認識できるようにする。【構成】 離散単語発声文の音声区間を検出する音声スポッティング処理S1と、検出された音声区間毎の各フレーム毎の特徴ベクトル時系列を求め、この特徴ベクトル時系列を音素ラベル時系列に変換し、この音素ラベル時系列と辞書として持つ音素ラベル時系列の標準テンプレートとの類似度を端点固定DPマッチング法で求めて単語認識する単語認識処理S2と、認識された各単語候補の内から標準パターンとの類似度から絞り込みを行う単語判定処理S3とによる音声認識方法において、有音部のみに対して端点固定DPマッチングによる類似度を求め、この類似度を最小にする標準テンプレートを単語認識結果とする。
Claim (excerpt):
離散単語発声文の音声区間を検出する音声スポッティング処理と、検出された音声区間毎の各フレーム毎の特徴ベクトル時系列を求め、この特徴ベクトル時系列を音素ラベル時系列に変換し、この音素ラベル時系列と辞書として持つ音素ラベル時系列の標準テンプレートとの類似度を端点固定DPマッチング法で求めて単語認識する単語認識処理と、認識された各単語候補の内から標準パターンとの類似度から絞り込みを行う単語判定処理とを備えたOne Pass DPマッチング法による音声認識方法において、前記端点固定DPマッチング処理は、音声区間の無音部から有音部に変化する始点から、有音部から無音部に変化する終点までの音声区間と前記標準テンプレートとの類似度SSを次式、【数1】Sn(i,j):入力音声の第iフレームと第n標準パターンの第jフレーム間のDPマッチングスコア。d(Ai,Bnj):入力音声の第iフレームと第n標準パターンの第jフレーム間の部分距離。min():3つのスコアの中の最小値。にしたがって求め、前記類似度SSを最小にする標準テンプレートの単語を当該音声区間の単語候補とすることを特徴とする音声認識方法。
IPC (3):
G10L 3/00 533 ,  G10L 3/00 531 ,  G10L 3/00

Return to Previous Page