特許
J-GLOBAL ID:200903062543931374

ワードスポッティング音声認識装置

発明者:
出願人/特許権者:
代理人 (1件): 草野 卓
公報種別:公開公報
出願番号(国際出願番号):特願平5-027767
公開番号(公開出願番号):特開平6-242792
出願日: 1993年02月17日
公開日(公表日): 1994年09月02日
要約:
【要約】【目的】 認識率を高めかつ処理時間を短縮する。【構成】 入力音声の全区間におけるピッチの周波数をピッチ抽出手段13で検出し、その周波数変化の包絡を、1〜0.5Hz程度のローパスフィルタ14を通して得る。その包絡のピーク(ピッチピーク)を検出手段21で求める。認識対象音声について統計的に求めたピッチ周波数変化の包絡におけるピーク位置と、その位置から認識対象音声区間の始端及び終端までの各時間長を格納手段16,17,18にそれぞれ予め記録しておき、これら格納された情報にもとづき、先に求めたピッチピークを基準として、LPC計算部3から入力音声の制御パラメータから認識対象音声区間候補を得、この区間候補についてのみ、登録単語とのゆう度計算を行いゆう度の高いものを認識結果とする。
請求項(抜粋):
入力音声信号の分析を行ない、その特徴パラメータを計算する音声分析部と、上記入力音声信号の任意の部分的音声区間と予め登録された単語とのゆう度を計算するゆう度計算部と、その計算されたゆう度が高い順に単語番号を出力する認識結果出力部とから構成されるワードスポッティング音声認識装置において、上記入力音声信号のピッチを抽出するピッチ抽出手段と、そのピッチ抽出手段から得られたピッチ周波数の時間的変化の低周波数成分を抽出するローパスフィルタと、そのローパスフィルタの出力信号に含まれる一つまたは複数のピッチピークを検出するピッチピーク検出手段と、認識対象音声区間が上記ピッチピーク検出手段によって検出されたピークのいずれのピークに含まれるかを予め指定する情報を格納したピーク指定情報格納手段と、上記認識対象音声区間の予想される始端位置と、上記ピーク指定情報格納手段によって指定されたピーク位置との時間長が格納された始端位置情報格納手段と、上記認識対象音声区間の予想される終端位置と、上記指定されたピーク位置との時間長が格納された終端位置情報格納手段と、上記ピッチピーク検出手段から得られたピークの内、上記指定されたピーク位置を起点として、上記始端位置情報格納手段および上記終端位置情報格納手段にそれぞれ格納された時間長から得られた認識対象音声区間を認識対象とし、その認識対象音声区間をワードスポッティングの対象とするように制御する制御手段と、を有することを特徴とするワードスポッティング音声認識装置。
IPC (2件):
G10L 3/00 515 ,  G10L 3/00 531

前のページに戻る