特許
J-GLOBAL ID:200903000856134526

音声認識のための文脈依存モデルの作成方法

発明者:
出願人/特許権者:
代理人 (1件): 前田 弘 (外7名)
公報種別:公開公報
出願番号(国際出願番号):特願2000-363363
公開番号(公開出願番号):特開2001-195084
出願日: 2000年11月29日
公開日(公表日): 2001年07月19日
要約:
【要約】【課題】 音声認識において、各学習用話者の特異性を考慮したモデルの生成を行う。【解決手段】 異音について文脈依存音響モデルを構築するために、次元削減固有音声分析手法を用いる。この固有音声手法は、新たな話者の音声についての実行中にも用いられる。この手法により、話者個人の特性が排除されて、より汎用的で、強固な異音モデルが生成される。ある実施形態では、固有音声手法は、各話者の重心を特定するために利用され、その重心は認識誤差から減じられる。他の実施形態では、最尤評価手法が用いられ、話者空間の固有音声表現を構築する際に、全ての話者で共用可能な決定木構造を構築する。
請求項(抜粋):
自動音声認識のための文脈依存モデルを作成する方法であって、学習用話者群を表す固有空間を生成し、少なくとも1人の学習用話者について音響データを準備し、この音響データを前記固有空間内に表して、前記学習用話者について、少なくとも1つの異音中心を決定し、前記中心を前記音響データから減じ、前記学習用話者について、話者調整音響データを生成し、前記話者調整音響データを用いて、他の異音についての文脈依存モデルを持つ葉節点を有する決定木の少なくとも1つを、成長させることを特徴とする文脈依存モデル作成方法。
IPC (4件):
G10L 15/18 ,  G10L 15/06 ,  G10L 15/10 ,  G10L 15/14
FI (5件):
G10L 3/00 537 A ,  G10L 3/00 521 S ,  G10L 3/00 531 E ,  G10L 3/00 535 A ,  G10L 3/00 537 F

前のページに戻る