特許
J-GLOBAL ID:200903044015913641

音声認識装置および話者適応化方法

発明者:
出願人/特許権者:
代理人 (1件): 植本 雅治
公報種別:公開公報
出願番号(国際出願番号):特願平5-021801
公開番号(公開出願番号):特開平6-214596
出願日: 1993年01月14日
公開日(公表日): 1994年08月05日
要約:
【要約】【目的】 声道特性の個人差のみならず声帯音源特性の個人差をも良好に補正し、未知の話者の発声を標準話者の発声に良好に適応させ、良好な認識結果を得ることが可能である。【構成】 既知なる発声内容の未知なる話者の入力音声信号に対して、複数の異なる周波数特性補正係数および複数の異なる周波数軸変換係数の各々の係数毎に、周波数特性補正部10,周波数軸変換部30,特徴量抽出部20に処理を行わせて、各々の係数毎に入力音声特徴量を求めさせ、各々の係数毎の入力音声特徴量を既知なる発声内容と同一内容の標準音声特徴量と照合して、各々の係数のうちから、最小距離を与える1つの周波数特性補正係数と1つの周波数軸変換係数を選択し、音声認識処理を行なう。
請求項(抜粋):
予め定められた複数の異なる周波数特性補正係数に基づいて、入力された音声信号の周波数特性を補正する周波数特性補正手段と、予め定められた複数の異なる周波数軸変換係数に基づいて、入力された音声信号の周波数を変換する周波数軸変換手段と、入力された音声信号の特徴量を入力音声特徴量として抽出する特徴量抽出手段と、標準音声特徴量を保持している標準音声記憶手段と、周波数特性補正手段,周波数軸変換手段,特徴量抽出手段により処理されて得られた入力音声特徴量と標準音声記憶手段に保持されている標準音声特徴量とを照合する照合手段とを有し、話者適応フェーズと音声認識フェーズの機能を具備する音声認識装置であって、前記照合手段は、話者適応フェーズにおいては、既知なる発声内容の未知なる話者の入力音声信号に対して、前記複数の異なる周波数特性補正係数および前記複数の異なる周波数軸変換係数の各々の係数毎に、周波数特性補正手段,周波数軸変換手段,特徴量抽出手段に処理を行なわせて、各々の係数毎に入力音声特徴量を求めさせ、各々の係数毎の入力音声特徴量を既知なる発声内容と同一内容の標準音声特徴量と照合して、前記各々の係数のうちから、最小距離を与える1つの周波数特性補正係数と1つの周波数軸変換係数を選択し、また、前記照合手段は、音声認識フェーズにおいては、前記話者適応フェーズで入力を行なった話者の未知なる発声内容の入力音声信号に対して、前記話者適応フェーズにおいて選択された1つの周波数特性補正係数と1つの周波数軸変換係数とに基づき周波数特性補正手段,周波数軸変換手段,特徴量抽出手段に処理を行なわせて入力音声特徴量を求めさせ、該入力音声特徴量を標準音声記憶手段に保持されている標準音声特徴量と照合して、認識結果を出力するようになっていることを特徴とする音声認識装置。
IPC (4件):
G10L 5/06 ,  G10L 3/00 531 ,  G10L 3/00 ,  G10L 3/02

前のページに戻る