特許
J-GLOBAL ID:200903029714262819

音声認識用単語辞書作成装置及び連続音声認識装置

発明者:
出願人/特許権者:
代理人 (1件): 青山 葆 (外2名)
公報種別:公開公報
出願番号(国際出願番号):特願平8-247631
公開番号(公開出願番号):特開平10-097293
出願日: 1996年09月19日
公開日(公表日): 1998年04月14日
要約:
【要約】【課題】 より長いコンテキストにおける発話音声の発声変形に対して対処することができ、単語認識率を大幅に向上させることができる音声認識用単語辞書を作成する装置及び音声認識装置を提供する。【解決手段】 発音ネットワーク作成装置20は、発声音声文の音声信号から抽出された音声特徴パラメータのデータと、それに対応して書き起こされた音素記号系列とに基づいて、音素の置換、脱落及び挿入を含むパターンマッチング結果を学習データとして用いてニューラルネットワークからなる発音ネットワークを学習することにより発音ネットワークを作成する。単語辞書作成装置50は、入力音素記号系列に基づいて発音ネットワークを参照して入力音素記号系列を発音ネットワークの入力層100に入力したときに出力層300からの出力値が最大である処理を入力される音素記号系列に対して実行して得られる音声記号系列を音声認識用単語辞書として登録する。
請求項(抜粋):
発声音声文の音声信号から抽出された音声特徴パラメータのデータと、それに対応して書き起こされた発声内容のローマ字表記の言語的発音系列である音素記号系列とに基づいて、上記音声特徴パラメータのデータを所定の音素認識法により音素認識して、音素認識された音素認識結果の音素系列の音響的発音系列である音声記号系列と、上記書き起こされた音素記号系列とのパターンマッチングをとることにより、音素の置換、脱落及び挿入を含むパターンマッチング結果を学習データとして用いて、処理すべき当該音素と、当該音素よりも前の複数の音素と、当該音素よりも後の複数の音素とを入力とする入力層と、少なくとも1層の中間層と、各音素の置換と各音素の挿入と脱落との処理を出力とする出力層とを備えたニューラルネットワークからなる発音ネットワークを学習することにより、発音ネットワークを作成する第1の作成手段と、入力される音素記号系列に基づいて、上記第1の作成手段によって作成された発音ネットワークを参照して、上記入力される音素記号系列を上記発音ネットワークの入力層に入力したときに、上記発音ネットワークの出力層からの出力値が最大である処理を上記入力される音素記号系列に対して実行して得られる音声記号系列を、音声認識用単語辞書として作成して、記憶装置に出力して記憶する第2の作成手段とを備えたことを特徴とする音声認識用単語辞書作成装置。
IPC (3件):
G10L 9/10 301 ,  G06F 15/18 560 ,  G10L 3/00 531
FI (3件):
G10L 9/10 301 C ,  G06F 15/18 560 G ,  G10L 3/00 531 D

前のページに戻る