特許
J-GLOBAL ID:200903050399688356

音声認識方式

発明者:
出願人/特許権者:
代理人 (1件): 京谷 四郎
公報種別:公開公報
出願番号(国際出願番号):特願平4-097880
公開番号(公開出願番号):特開平5-297889
出願日: 1992年04月17日
公開日(公表日): 1993年11月12日
要約:
【要約】【目的】 計算量を大幅に削減することができ、また、高レベル雑音下においても音声を良好に認識することができる音声認識方式を提供すること。【構成】 音声の認識時、入力された音声は周波数分析部2により、周波数分析され、データ圧縮部4において、非線型関数f(x)=b・exp(ax)+cによりデータ圧縮が行われて、照合部7に与えられる。雑音信号は周波数分析部2’により周波数分析され、データ圧縮部4’において非線型関数f(x)によりデータ圧縮されて、雑音付加部6に与えられる。雑音付加部6は、辞書5より読み出されたテンプレートに圧縮された雑音成分を付加し照合部7に与える。照合部7は、雑音付加部6の出力と、データ圧縮部4の出力との間の類似度あるいは距離を演算し、認識結果を出力する。変換関数として上記非線型関数を用いているので、四則演算の計算だけで雑音成分の付加ができる。
請求項(抜粋):
発生された音声音響信号を電気信号に変換する音声入力部(1) と、音声入力信号を周波数分析し、各分析フレーム毎に複数チャンネルの分析データからなる入力音声パターンを出力する第1および第2の周波数分析部(2,2')と、第1および第2周波数分析部(2,2')において分析された周波数パターンを、非線型変換によってダイナミック・レンジを保ちながらデータ圧縮する第1および第2のデータ圧縮部(4,4')と、学習データから作成されるテンプレートをデータ圧縮後、格納する辞書(5) と、音声認識時に、第2のデータ圧縮部(4')の出力より得られる雑音成分をパワー・スペクトルの次元でテンプレートに付加する雑音付加部(6) と、第1のデータ圧縮部(4) において圧縮された入力音声パターンと雑音付加部(6) の出力との照合を行い、両者の間の類似度あるいは距離を演算する照合部(7)とを備えた音声認識方式において、第1および第2のデータ圧縮部(4,4')における非線型関数として下式を用いるとともに、f(x)=b・exp(ax)+c (a,b,cは定数)上記非線型関数の定数a,b,cを決定する定数決定部(3) を設け、上記非線形関数を用いて、第1および第2の周波数分析部(2,2')が出力する周波数パターンを第1および第2のデータ圧縮部(4,4')によりデータ圧縮することを特徴とする音声認識方式。
IPC (2件):
G10L 3/00 531 ,  G10L 3/00 521

前のページに戻る