特許
J-GLOBAL ID:200903057224844538

音声認識のための単語モデル生成装置及び音声認識装置

発明者:
出願人/特許権者:
代理人 (1件): 青山 葆 (外2名)
公報種別:公開公報
出願番号(国際出願番号):特願平8-068226
公開番号(公開出願番号):特開平9-258766
出願日: 1996年03月25日
公開日(公表日): 1997年10月03日
要約:
【要約】【課題】 音響的特徴量に基づくセグメント単位(ASU)を用いて単語モデルを生成することができ、音声認識率を改善する音声認識用単語モデル生成装置及び音声認識装置を提供する。【解決手段】 ASUの最尤セグメントコード系列と音素データベースを比較して得られた、処理音素の前後のコンテキスト環境が一致する複数セグメントコードのサンプルのうちの最大尤度を有する代表のセグメントコードのサンプルと、他の各サンプルを混合して音素モデルを生成し、音素データベースにおける音響的特徴量から最大尤度を有する代表のセグメントコードと、複数のセグメントコードのサンプルとを混合して第1の単語モデルを生成する。学習用テキストデータから各単語を読み出し音素データベース中の同一単語の音素モデルを組み合わせて第2の単語モデルを生成し、第1と第2の単語モデルとを混合して音声認識用単語モデルを生成する。
請求項(抜粋):
予め生成された音響的特徴量に基づくセグメント単位の最尤セグメントコード系列と、単語毎の各音素の時間を含む音素データベースとを比較することにより、処理音素の前後のコンテキスト環境が一致する複数M個のセグメントコードのサンプルを検出し、検出された複数M個のセグメントコードのサンプルの中から最大尤度を有する代表のセグメントコードのサンプルを検出し、上記代表のセグメントコードのサンプルと、上記複数M個のセグメントコードのサンプルとの間の時間的な対応付けを動的時間整合法により行って時間的に正規化を行い、時間的に正規化された代表のセグメントコードのサンプルと、上記複数M個のセグメントコードのサンプルとを各単語毎に混合することにより、処理音素の前後のコンテキスト環境が一致する音素列毎に音響的特徴量を含む各単語の音素モデルを生成する第1の生成手段と、上記音素データベースにおける同一の単語である複数N個の単語の音響的特徴量から最大尤度を有する当該単語の代表のセグメントコードのサンプルを検出し、検出された代表のセグメントのサンプルと、複数N個の単語のセグメントコードのサンプルとの時間的な対応付けを動的時間整合法により行って時間的に正規化を行い、時間的に正規化された代表のセグメントコードのサンプルと、上記複数N個のセグメントコードのサンプルとを各単語毎に混合することにより、単語毎に音響的特徴量を含む第1の単語モデルを生成する第2の生成手段と、複数の単語の学習用テキストデータから各単語を読み出して、上記音素データベース中の各同一単語の複数の音素モデルを組み合わせることにより、各単語毎に音響的特徴量を含む第2の単語モデルを生成する第3の生成手段と、上記第1の単語モデルと上記第2の単語モデルとを、当該モデルの音響的特徴量を用いて時間的な対応付けを動的時間整合法により行って時間的に正規化を行い、時間的に正規化された第1と第2の単語モデルを混合することにより、単語毎に音響的特徴量を含む第3の単語モデルを生成する第4の生成手段とを備えたことを特徴とする音声認識のための単語モデル生成装置。
IPC (2件):
G10L 3/00 515 ,  G10L 3/00 521
FI (2件):
G10L 3/00 515 B ,  G10L 3/00 521 F

前のページに戻る