特許
J-GLOBAL ID:200903056599025660

単語音声認識方法

発明者:
出願人/特許権者:
代理人 (1件): 足立 勉
公報種別:公開公報
出願番号(国際出願番号):特願平5-138560
公開番号(公開出願番号):特開平6-348291
出願日: 1993年06月10日
公開日(公表日): 1994年12月22日
要約:
【要約】【目的】 認識音素列と辞書音素列との類似度を精度よく算出する。【構成】 図2は本発明の一実施例における単語音声認識方法を実現するための構成を示すブロック図である。音響分析部10はマイクなどを通じて入力される音声をフィルタに通してA/D変換する。特徴パラメータ抽出部12はA/D変換された入力音声を所定のフレーム周期毎に分析してフレーム毎の特徴パラメータ(LPCケプストラム係数)を求めて特徴パラメータ時系列を生成する。音素認識部14(ニューラルネット)は特徴パラメータ時系列をフレーム単位でずらしながらフレーム毎の音素を識別して音素時系列を生成する。セグメンテーション部16は音素時系列から母音区間と子音区間とを区別して取り出す。音素認識信頼度算出部18は各々のセグメント内の音素の信頼度を算出する。この音素の信頼度の情報を用いて認識音素列と辞書音素列との類似度を算出する。
請求項(抜粋):
入力音声を所定のフレーム周期毎に分析してフレーム毎の特徴パラメータを求めて特徴パラメータ時系列を生成し、該特徴パラメータ時系列をフレーム単位でずらしながらフレーム毎の音素を識別して音素時系列を生成し、該音素時系列から、複数の音素のまとまりをセグメントとして順次取り出してセグメント系列を生成し、該セグメント系列に対応する単語を決定する際、セグメントに含まれる各音素が該セグメント内の全ての音素に対して占める割合と、各音素の認識確率に対応した尤度値とを用いることを特徴とする単語音声認識方法。
IPC (3件):
G10L 3/00 515 ,  G10L 3/00 531 ,  G10L 9/10 301

前のページに戻る