Pat
J-GLOBAL ID:200903049223115483

話者正規化処理装置及び音声認識装置

Inventor:
Applicant, Patent owner:
Agent (1): 青山 葆 (外2名)
Gazette classification:公開公報
Application number (International application number):1999011720
Publication number (International publication number):1999327592
Application date: Jan. 20, 1999
Publication date: Nov. 26, 1999
Summary:
【要約】【課題】 周波数ワーピング関数を高精度で推定して話者正規化して学習することにより音響モデルを生成し、音声認識する。【解決手段】 話者正規化処理部12は、各学習話者の音声波形データに基づいてその声道の解剖学的形状である声道形状の特徴量を、標準話者の声道モデルに基づいて決められた声道形状パラメータとフォルマント周波数との間の対応関係を参照して推定し、それに基づいてフォルマント周波数を推定し、それと標準話者の対応するフォルマント周波数を周波数ワーピング関数の関係上で直線補間して周波数ワーピング関数を生成し、次いで、各学習話者の音声波形データに対して周波数ワーピング関数を用いて話者正規化した後、音響的特徴パラメータを抽出し、さらに、音響的特徴パラメータと対応するテキストデータとに基づいて初期HMMを学習して正規化されたHMMを生成する。そしてHMMを用いて音声認識する。
Claim (excerpt):
複数の正規化対象話者の音声波形データとそれに対応するテキストデータを記憶する第1の記憶装置と、標準話者の声道面積関数に基づいて決められた標準話者のフォルマント周波数を記憶する第2の記憶装置と、上記第1の記憶装置に記憶された各正規化対象話者の音声波形データに基づいて、各正規化対象話者の声道の解剖学的形状である声道形状の特徴量を、上記標準話者の声道モデルに基づいて予め決められた声道形状パラメータとフォルマント周波数との間の対応関係を参照して推定する推定手段と、上記推定手段によって推定された各正規化対象話者の声道形状の特徴量と、上記標準話者の声道形状の特徴量とに基づいて、上記標準話者の声道形状の特徴量を変化させることにより、各正規化対象話者の声道面積関数を推定し、推定された各正規化対象話者の声道面積関数に基づいて各正規化対象話者が発声する音声のフォルマント周波数を推定し、周波数ワーピング後の各正規化対象話者の音声のフォルマント周波数が上記第2の記憶装置に記憶された標準話者の対応するフォルマント周波数と一致するように入力音声周波数を変換して周波数ワーピングするための、入力音声周波数と周波数ワーピング後の周波数の対応関係を示す周波数ワーピング関数を生成する関数生成手段とを備えたことを特徴とする話者正規化処理装置。
IPC (3):
G10L 3/02 301 ,  G10L 3/00 521 ,  G10L 3/00 531
FI (3):
G10L 3/02 301 A ,  G10L 3/00 521 S ,  G10L 3/00 531 J

Return to Previous Page