音声認識システム

発明者： , ,
出願人/特許権者：
代理人 (1件)：小橋信淳
公報種別：公開公報
出願番号（国際出願番号）：特願2000-282349
公開番号（公開出願番号）：特開2002-091485
出願日： 2000年09月18日
公開日（公表日）： 2002年03月27日
要約：

【要約】【課題】乗法性歪と加法性雑音に対してロバストな音声認識システムを提供する。【解決手段】乗法性歪を有する音声HMM10と加法性雑音の初期雑音HMM17から、初期合成HMM16を生成すると共に、ヤコビアン行列算出部19によりヤコビアン行列〔J〕ijを算出しておく。実際に発話された発話音声から求めた乗法性歪の推定値Ha^(cep)と、非発話期間に得られる加法性雑音Na(cep)と、初期雑音HMM17の加法性雑音Nm(cep)とを合成した雑音変動分Namh(cep)にヤコビアン行列を乗算し、その乗算結果と初期合成HMM16を合成して、適応HMM26を生成する。こうすることにより、実際の発話音声から生成される観測値系列RNa(cep)と整合性のとれた適応HMM26を予め生成しておくことができ、観測値系列RNa(cep)と適応HMM26とを照合して音声認識を行う際に、乗法性歪と加法性歪の影響を相殺して、クリーンな音声だけで音声認識を行ったのと等価な効果が得られ、ロバストな音声認識システムが実現される。

請求項（抜粋）：

予め収集した乗法性歪を含んだ音声から生成された音声モデルと、予め収集した加法性雑音から生成された雑音モデルと、前記音声モデルに含まれる前記乗法性歪を推定する第1の推定手段と、前記音声モデルと、前記第1の推定手段で推定された前記乗法性歪の第1の推定値と、前記雑音モデルの加法性雑音とを合成処理することによって得られる雑音付加音声に基づいて生成された合成音声モデルと、前記雑音モデルの加法性雑音と前記雑音付加音声とからヤコビアン行列を算出する算出手段と、発話音声に含まれる乗法性歪を推定する第2の推定手段と、非発話期間に生じる加法性雑音と、前記雑音モデルの加法性雑音と、前記第2の推定手段で推定された前記乗法性歪の第2の推定値とを合成処理することで雑音変化分を求めると共に、前記雑音変化分に前記算出手段で算出されたヤコビアン行列を乗算する第1の演算手段と、前記演算手段の求めた乗算結果と前記合成音声モデルとを合成処理することによって生成された適応モデルと、発話音声と前記第2の推定手段で推定された前記乗法性歪の第2の推定値とを合成処理することにより観測値系列を生成する第2の演算手段とを備え、前記観測値系列と前記適応モデルとを照合することにより音声認識を行うことを特徴とする音声認識システム。

IPC (6件)：

G10L 15/20 , G10L 21/02 , G10L 15/06 , G10L 15/14 , G10L 15/02 , G10L101:04

FI (5件)：

G10L101:04 , G10L 3/02 301 D , G10L 3/00 521 T , G10L 3/00 535 A , G10L 9/16 301 A

Fターム (4件)：

5D015EE05 , 5D015GG01 , 5D015GG05 , 5D015HH11

引用特許：

審査官引用 (8件)

音声認識方法及び装置
公報種別：公開公報出願番号：特願平8-068046 出願人：キヤノン株式会社
モデル適応方法、装置およびその記憶媒体
公報種別：公開公報出願番号：特願平9-251068 出願人：日本電信電話株式会社
パターン認識方法および装置とパターン認識プログラムを格納した記録媒体
公報種別：公開公報出願番号：特願平9-251069 出願人：日本電信電話株式会社

全件表示

引用文献：

審査官引用 (2件)

前のページに戻る