特許
J-GLOBAL ID:200903072674497632
話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体
発明者:
出願人/特許権者:
代理人 (1件):
青山 葆 (外1名)
公報種別:公開公報
出願番号(国際出願番号):特願2001-209503
公開番号(公開出願番号):特開2003-022088
出願日: 2001年07月10日
公開日(公表日): 2003年01月24日
要約:
【要約】【課題】 より少ない発声データから精度良く話者特徴を抽出する。【解決手段】 GMM学習部12は、学習データ格納部13に格納された各学習話者の音声データに声道長伸縮係数αの値を与え、この声道長伸縮係数αに基づいて学習話者をクラスタリングし、あるクラスタCの近傍のクラスタDに属する話者の音声データを上記クラスタCに属するようにデータ変換し、各クラスタのGMMを用いて学習話者をクラスタリングし直す。得られたn個のクラスタのGMMはGMM格納部6に格納される。話者クラスタ選択部3は、音響分析部2からの音響パラメータ系列にGMM格納部6に格納されたn個のGMMを作用させ、最大尤度を与えるGMMのインデックスを話者クラスタ情報として出力する。こうして、少ない学習データから、発話内容に因らずに精度良く話者特徴を抽出する。
請求項(抜粋):
入力話者の音声に基づいて、標準話者の音声と上記入力話者の音声との関係を表わすパラメータを話者特徴として抽出する話者特徴抽出装置において、各学習話者に関して、上記標準話者に対する声道長の伸縮係数αを所定の方法によって予め求め、この求められた伸縮係数αの値に基づいて上記学習話者をクラスタリングする学習話者クラスタリング手段と、上記クラスタリングされた各クラスタに属する話者集合毎に、学習によって1状態の混合ガウス分布型音響モデルを生成する音響モデル生成手段と、上記生成された1状態の混合ガウス分布型音響モデルの夫々に対する上記学習話者の音声サンプルの尤度を算出し、その尤度に基づいて上記学習話者を再クラスタリングする再クラスタリング手段と、上記音響モデル生成手段と再クラスタリング手段とを制御して、所定の条件を満たすまで、上記1状態の混合ガウス分布型音響モデルの生成と上記学習話者の再クラスタリングとを繰り返すループ学習手段と、上記ループ学習手段によって最終的に生成された1状態の混合ガウス分布型音響モデルの群を格納する音響モデル格納部と、上記音響モデル格納部に格納された1状態の混合ガウス分布型音響モデルの夫々に対する入力話者の音声サンプルの尤度を算出し、最大の尤度を呈する1状態の混合ガウス分布型音響モデルを入力話者が属するクラスタの情報として選択する話者クラスタ選択部を備えて、上記入力話者の特徴として上記最大の尤度を呈する1状態の混合ガウス分布型音響モデルを抽出することを特徴とする話者特徴抽出装置。
IPC (7件):
G10L 15/06
, G06F 3/16 320
, G06F 3/16
, G10L 15/02
, G10L 15/10
, G10L 15/14
, G10L 15/18
FI (8件):
G06F 3/16 320 G
, G06F 3/16 320 H
, G10L 3/00 521 V
, G10L 3/00 515 E
, G10L 3/00 521 S
, G10L 3/00 537 A
, G10L 3/00 531 K
, G10L 3/00 535 C
Fターム (3件):
5D015FF04
, 5D015GG04
, 5D015HH04
引用特許:
引用文献:
前のページに戻る