特許
J-GLOBAL ID:200903071255543369

音声認識装置

発明者:
出願人/特許権者:
代理人 (1件): 工藤 宣幸
公報種別:公開公報
出願番号(国際出願番号):特願平8-003882
公開番号(公開出願番号):特開平9-198082
出願日: 1996年01月12日
公開日(公表日): 1997年07月31日
要約:
【要約】【課題】 音声に雑音が含まれていても、処理負担を軽減し、認識精度が高い音声認識装置。【解決手段】 唇特徴抽出部103は、1フレーム分の画像信号から唇の縦横の大きさなど、その画像フレーム内の唇の特徴を抽出する。唇特徴記憶部104は、複数フレーム分の唇特徴を記憶する。音節区間抽出部105は、唇特徴記憶部104に記憶されている唇特徴から音節の区間とその内容等を抽出する。整合窓作成部113は、唇特徴から得られた音節区間を元にDPマッチングの整合窓を作成する。DPマッチング部114は、音素特徴記憶部110に記憶されている入力音声の音素特徴と音素特徴記憶部112に記憶されているモデル音声の音素特徴との間でDPマッチングを行なう。
請求項(抜粋):
音声認識対象の話者の発話時の唇周辺領域の画像信号を取り込み、画像フレーム毎に唇の特徴情報を抽出する唇特徴情報抽出手段と、上記発話時の入力音声信号から所定長音声フレームごとに音素特徴情報を抽出する音素特徴抽出手段と、予め複数の既知単語に対するモデル音節区間情報とモデル音素特徴情報とを登録している単語辞書手段と、上記唇の特徴情報から音節区間情報を求めると共に、上記単語辞書手段からのモデル音節区間情報と、上記唇の特徴情報からの音節区間情報とからDPマッチングのための整合窓を音節区間ごとに形成する整合窓形成手段と、上記音素特徴情報と、上記単語辞書手段からの複数のモデル音素特徴情報との間の類似度を、上記整合窓の制約の元でDPマッチング法によって求める音素特徴類似度分析手段と、上記複数の類似度から類似度の高い単語を選別して出力する単語選別出力手段とを備えたことを特徴とする音声認識装置。
IPC (3件):
G10L 3/00 533 ,  G10L 3/00 513 ,  G10L 3/00 571
FI (3件):
G10L 3/00 533 D ,  G10L 3/00 513 Z ,  G10L 3/00 571 G

前のページに戻る