特許
J-GLOBAL ID:200903099490174046

音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体

発明者:
出願人/特許権者:
代理人 (1件): 草野 卓
公報種別:公開公報
出願番号(国際出願番号):特願平9-093855
公開番号(公開出願番号):特開平10-097273
出願日: 1997年04月11日
公開日(公表日): 1998年04月14日
要約:
【要約】【課題】 音声モデルを不特定話者に対しより正確に適応化する。【解決手段】 音声モデルの話者適応化方法であり、入力音声をケプストラムのような特徴パラメータ列に変換し、その特徴パラメータ列との尤度が最大となるN個のモデル系列を不特定話者用音声HMMからN-best仮説抽出法により抽出し、抽出されたそれら各モデル系列毎に、その系列のHMMパラメータを変化させて入力音声音特徴系列との尤度がそれぞれ最大となるように仮適応化し、それら仮適応化されたモデル系列の中で最大尤度の適応化モデル系列を選択し、認識対象話者の適応化HMMとする。
請求項(抜粋):
多数の話者の音声を用いて学習して、音韻、単語などの認識カテゴリに対応した音声の特徴をモデルパラメータによりモデル化した基準モデル辞書を構成する不特定話者用の音声モデルを、認識対象となる話者の音声に適応化する音声モデルの話者適応化方法において:(a) 上記認識対象となる話者の入力音声の音声特徴パラメータ列を抽出する特徴量抽出過程と、(b) 上記不特定話者用音声モデルから、上記入力音声の上記特徴パラメータ列と対応すると推定される仮説のモデル系列を上記基準モデル辞書から複数抽出するモデル系列抽出過程と、(c) 上記抽出された複数の仮説モデル系列の各モデル系列ごとに、上記入力音声の上記特徴パラメータ列に対する上記仮説のモデル系列の尤度が最大になるように、各上記仮説のモデル系列のモデルパラメータを制御してそれぞれ仮適応化する仮適応化過程と、(d) 上記仮適応化過程で仮適応化後のそれぞれの上記仮説モデル系列の上記特徴パラメータ列に対する尤度に基づいて、仮適応化後の少なくとも1つの上記仮説モデル系列を適応化音声モデル系列として選出する適応化モデル選出過程と、を含む音声モデルの話者適応化方法。
IPC (2件):
G10L 3/00 531 ,  G10L 3/00 535
FI (2件):
G10L 3/00 531 K ,  G10L 3/00 535

前のページに戻る