特許
J-GLOBAL ID:200903076778018987

音響モデルの準備方法及び自動音声認識装置

発明者:
出願人/特許権者:
代理人 (1件): 清水 敏
公報種別:公開公報
出願番号(国際出願番号):特願2005-236382
公開番号(公開出願番号):特開2007-052166
出願日: 2005年08月17日
公開日(公表日): 2007年03月01日
要約:
【課題】音響モデルのトレーニング用データ量を低く保ち、広域音声コンテキストを効率的に反映して、ASRシステムの仮説を再スコアリングする。【解決手段】広域コンテキスト音響モデルを準備する方法であって、3状態を有するHMMをトレーニングするステップと、第1及び第3の状態に対応するベイズネットワークをトレーニングするステップと、HMMとベイズネットワークとを組合せるステップとを含む。ベイズネットワークは、第1及び第3の状態に対応する第1のノードq1及びq3と、第1の音素の直前の音素及び最後の音素の直後の音素を表す隠れ変数の第2のノードCL及びCRと、第1及び第3の状態の観測空間の第3のノードX1及びX3とを含むトポロジーを有する。【選択図】 図4
請求項(抜粋):
広域コンテキスト音響モデルを準備する音響モデルの準備方法であって、 トレーニング用音響データの組を用いて予め定められた数の状態を有する音響隠れマルコフモデルをトレーニングするステップを含み、前記状態は、他の状態に対応する他の音素に先行する第1の音素に対応する第1の状態と、他の状態に対応する他の音素に後続する最後の音素に対応する最後の状態と、第1の音素と最後の音素との間の音素に対応する中央状態とを含み、 前記方法は、前記音響データの組を用いて前記第1の状態に対応する第1のベイズネットワークをトレーニングするステップをさらに含み、前記第1のベイズネットワークは前記第1の状態に対応する第1のノードと、前記第1の音素の直前の音素を表す隠れ変数の第2のノードと、第1の状態の観測空間の第3のノードとを含むトポロジーを有し、前記第2及び第3のノードは前記第1のノードの子であり、前記第3のノードは前記第2のノードの子であり、 前記方法はさらに、前記隠れマルコフモデルと前記第1のベイズネットワークとを結合するステップを含む、音響モデルの準備方法。
IPC (2件):
G10L 15/14 ,  G10L 15/06
FI (2件):
G10L3/00 535Z ,  G10L3/00 521F
Fターム (2件):
5D015AA05 ,  5D015HH23

前のページに戻る