特許
J-GLOBAL ID:200903049223115483

話者正規化処理装置及び音声認識装置

発明者:
出願人/特許権者:
代理人 (1件): 青山 葆 (外2名)
公報種別:公開公報
出願番号(国際出願番号):特願平11-011720
公開番号(公開出願番号):特開平11-327592
出願日: 1999年01月20日
公開日(公表日): 1999年11月26日
要約:
【要約】【課題】 周波数ワーピング関数を高精度で推定して話者正規化して学習することにより音響モデルを生成し、音声認識する。【解決手段】 話者正規化処理部12は、各学習話者の音声波形データに基づいてその声道の解剖学的形状である声道形状の特徴量を、標準話者の声道モデルに基づいて決められた声道形状パラメータとフォルマント周波数との間の対応関係を参照して推定し、それに基づいてフォルマント周波数を推定し、それと標準話者の対応するフォルマント周波数を周波数ワーピング関数の関係上で直線補間して周波数ワーピング関数を生成し、次いで、各学習話者の音声波形データに対して周波数ワーピング関数を用いて話者正規化した後、音響的特徴パラメータを抽出し、さらに、音響的特徴パラメータと対応するテキストデータとに基づいて初期HMMを学習して正規化されたHMMを生成する。そしてHMMを用いて音声認識する。
請求項(抜粋):
複数の正規化対象話者の音声波形データとそれに対応するテキストデータを記憶する第1の記憶装置と、標準話者の声道面積関数に基づいて決められた標準話者のフォルマント周波数を記憶する第2の記憶装置と、上記第1の記憶装置に記憶された各正規化対象話者の音声波形データに基づいて、各正規化対象話者の声道の解剖学的形状である声道形状の特徴量を、上記標準話者の声道モデルに基づいて予め決められた声道形状パラメータとフォルマント周波数との間の対応関係を参照して推定する推定手段と、上記推定手段によって推定された各正規化対象話者の声道形状の特徴量と、上記標準話者の声道形状の特徴量とに基づいて、上記標準話者の声道形状の特徴量を変化させることにより、各正規化対象話者の声道面積関数を推定し、推定された各正規化対象話者の声道面積関数に基づいて各正規化対象話者が発声する音声のフォルマント周波数を推定し、周波数ワーピング後の各正規化対象話者の音声のフォルマント周波数が上記第2の記憶装置に記憶された標準話者の対応するフォルマント周波数と一致するように入力音声周波数を変換して周波数ワーピングするための、入力音声周波数と周波数ワーピング後の周波数の対応関係を示す周波数ワーピング関数を生成する関数生成手段とを備えたことを特徴とする話者正規化処理装置。
IPC (3件):
G10L 3/02 301 ,  G10L 3/00 521 ,  G10L 3/00 531
FI (3件):
G10L 3/02 301 A ,  G10L 3/00 521 S ,  G10L 3/00 531 J

前のページに戻る