特許
J-GLOBAL ID:201303023060550822

音響モデル適応装置と音声認識装置とそれらの方法と、プログラム

発明者:
出願人/特許権者:
代理人 (3件): 中尾 直樹 ,  中村 幸雄 ,  義村 宗洋
公報種別:公開公報
出願番号(国際出願番号):特願2012-022908
公開番号(公開出願番号):特開2013-160930
出願日: 2012年02月06日
公開日(公表日): 2013年08月19日
要約:
【課題】適応データの音素誤り傾向に着目して適応効果の高い音響モデルを生成する音響モデル適応装置と、音声認識装置を提供する。【解決手段】音素誤り傾向ベクトル生成部は、複数の音声を入力として各音声の音素誤り傾向ベクトルを生成してその音声と音素誤り傾向ベクトルをセットで出力する。クラスタリング部は、音素誤り傾向ベクトル間の類似度によって音声と音素誤り傾向ベクトルを所定の数のクラスのクラスタに分類すると共に、各クラスタの音素誤り傾向ベクトルの平均ベクトルであるセントロイドを求め、クラスタとセントロイドをペアで出力する。ベース音響モデル適応部は、クラスタ毎にベース音響モデルを教師なし適応させて適応後音響モデルを生成し、適応後音響モデル記録部に記録する。また、音声認識装置は、音素誤り傾向ベクトル間の類似度に応じて選択した適用音響モデルを用いて音声認識処理を行う。【選択図】図1
請求項(抜粋):
複数の音声から成る音声群を入力として、上記音声をベース音響モデルに基づいて音声認識処理した結果の音声認識結果テキストとその音声を出力する音声認識部と、 上記音声の音響特徴量抽出をフレーム毎に行い当該フレームの音響特徴量の出力確率を上記ベース音響モデルに含まれる全音素の全状態について求め、当該出力確率の最大値を当該フレームの出力確率の総和で除して1位音素の事後確率とし、当該1位音素の事後確率の音素毎の平均値を上記音声単位で求めた音素事後確率を当該音声単位で並べて事後確率ベクトルとし当該事後確率ベクトルから、予め求めた上記音声群全体の音声群全体事後確率ベクトルを減算して上記音声の音素誤り傾向ベクトルとして生成する音素誤り傾向ベクトル生成部と、 上記音声と上記音声認識結果テキストと上記音素誤り傾向ベクトルとの3つの組群を入力として、上記音素誤り傾向ベクトル間の類似度を尺度に、上記3つの組群を所定の数のクラスのクラスタに分類すると共に当該クラスタ中の上記音素誤り傾向ベクトルの平均ベクトルであるセントロイドを求め、上記クラスタとセントロイドを出力するクラスタリング部と、 上記クラスタとセントロイドを入力として、各クラスタに含まれる音声と音声認識結果テキストに基づいて、上記ベース音響モデルを上記クラスタ毎に適応させた適応後音響モデルを生成するベース音響モデル適応部と、 上記クラスタ毎に上記適応後音響モデルを記録する適応後音響モデル記録部と、 を具備する音響モデル適応装置。
IPC (2件):
G10L 15/065 ,  G10L 15/06
FI (2件):
G10L15/06 310Z ,  G10L15/06 300Y
Fターム (1件):
5D015GG00
引用特許:
出願人引用 (3件) 審査官引用 (3件)
引用文献:
出願人引用 (1件)
  • Unsupervised Discovery and Training of Maximally Dissimilar Cluster Models
審査官引用 (1件)
  • Unsupervised Discovery and Training of Maximally Dissimilar Cluster Models

前のページに戻る