特許
J-GLOBAL ID:200903009941562070

音声認識装置及び話者適応方法

発明者:
出願人/特許権者:
代理人 (1件): 鈴江 武彦 (外6名)
公報種別:公開公報
出願番号(国際出願番号):特願平9-009777
公開番号(公開出願番号):特開平10-207485
出願日: 1997年01月22日
公開日(公表日): 1998年08月07日
要約:
【要約】【課題】少量の学習データでも認識性能が向上し、大量にデータが集まれば一層の性能向上が見込め、しかも適応のためのユーザの負担を極力排除できる。【解決手段】話者適応モードにおいて、音韻ラベル系列決定部13は、特定話者の入力音声に関し、正解音韻系列に対応する辞書格納部15内のHMMとの照合により正解音韻系列情報を求めると共に、辞書格納部15内の全HMMとの照合によりスコアが最大となる最適音韻系列情報を求める。適応部14は、正解音韻系列情報最適に従い、最大事後確率推定法により辞書格納部15内の音韻HMMの平均ベクトル及び分散の学習を行い、更に正解音韻系列情報中の音韻ラベル系列と最適音韻系列情報中の音韻ラベル系列とを比較して、正解音韻ラベルとは異なる音韻ラベルが割り当てられている音声パターンを抽出し、その音声パターンを当該音韻ラベルに対応する音韻HMMの平均ベクトルから差し引く。
請求項(抜粋):
発声された音声を入力する音声入力手段と、前記音声入力手段により入力された音声を分析してその特徴を表す音声パターンを得る音声分析手段と、音韻毎の照合に用いられる認識辞書の群を格納しておく辞書格納手段と、認識モードにおいて、前記音声分析手段により得られた音声パターンの認識処理を前記辞書格納手段内の認識辞書を利用して実行する認識手段とを備えた音声認識装置において、話者適応モードにおいて、特定話者の入力音声に対応した既知の音韻系列について、前記音声分析手段により当該入力音声から得られた音声パターンと前記辞書格納手段内の対応する認識辞書との照合を行うことで照合結果の情報を含む正解音韻系列情報を抽出すると共に、前記音声パターンと前記辞書格納手段内の全ての認識辞書との照合を行うことで、最大尤度を与える音韻系列に関する照合結果の情報を含む最適音韻系列情報を抽出する音韻系列情報決定手段と、前記音韻系列情報決定手段により抽出された前記正解音韻系列情報に従い、最大事後確率推定法により前記辞書格納手段内の該当する認識辞書の学習を行う第1の適応学習手段と、前記音韻系列情報決定手段により抽出された前記正解音韻系列情報及び前記最適音韻系列情報を比較してその相違部分を抽出し、その相違部分が解消される方向に前記音声分析手段により得られた音声パターンを用いて前記辞書格納手段内の該当する認識辞書の学習を行う第2の適応学習手段とを具備することを特徴とする音声認識装置。
IPC (4件):
G10L 3/00 535 ,  G10L 3/00 521 ,  G10L 3/00 531 ,  G10L 3/00
FI (5件):
G10L 3/00 535 ,  G10L 3/00 521 F ,  G10L 3/00 531 D ,  G10L 3/00 531 F ,  G10L 3/00 531 K
引用特許:
審査官引用 (4件)
全件表示

前のページに戻る