特許
J-GLOBAL ID:200903080701778501

音声認識方法及びその装置

発明者:
出願人/特許権者:
代理人 (1件): 岩橋 文雄 (外2名)
公報種別:公開公報
出願番号(国際出願番号):特願2001-014160
公開番号(公開出願番号):特開2002-215187
出願日: 2001年01月23日
公開日(公表日): 2002年07月31日
要約:
【要約】【課題】 本発明は、認識精度を保ちつつ計算量を効果的に削減可能な音声認識方法及びその装置を提供することを目的とする。【解決手段】 音素や音節などの音声単位の連結で表現され、単語間の接続ルールによって入力音声の長さに従い展開される仮説に対応する音響モデルと、入力音声とを照合し認識スコアを得、その認識スコアの高い少なくとも1個の仮説を残しながら入力音声に近い候補を認識結果として出力する音声認識装置において、単語内では似た発音のスコアの高い仮説は単語終端まで、仮説数によらず精密に計算を行うことで認識精度を保ち、単語終端では、後続単語が接続することによる仮説数の増大を避けるために、仮説数による絞り込みを行い、認識精度を保ちつつ計算量を効果的に削減可能な音声認識方法及びその装置を提供することができる。
請求項(抜粋):
音素や音節などの音声単位の連結で表現され、単語間の接続ルールによって入力音声の長さに従い展開される仮説に対応する音響モデルと、入力音声とを照合し認識スコアを得、その認識スコアの高い少なくとも1個の仮説を残しながら入力音声に近い候補を認識結果として出力する音声認識方法において、入力された音声の特徴量をフレーム単位で抽出する特徴量抽出ステップと、現処理フレームが単語終端か単語内かを判別し、前記判定が単語終端ならば単語終端の仮説を記憶するか否かを判定し、単語内ならば単語内の仮説を記憶するか否かの判定をするステップと、前記記憶すると判定された仮説を記憶するステップと、前記記憶された仮説を仮説が単語内ならば単語を表現する音声単位を伸長し、単語終端ならば単語間の接続ルールにより次に続く単語を結合し、仮説を展開する制御を行う制御ステップと、前記入力音声から抽出されたフレーム特徴量と前記展開された仮説の音響モデルのフレーム特徴量との類似度を計算するステップと、前記類似度と前フレームまでの仮説の認識スコアとから、認識スコアの演算を行う演算ステップと、前記仮説と前記認識スコアを新しい仮説として登録するステップと、前記フレーム単位の処理を入力音声の終端まで続け認識スコアの高い少なくとも1個の仮説を入力音声に近い認識結果として出力するステップとを有することを特徴とする音声認識方法。
IPC (3件):
G10L 15/18 ,  G10L 15/08 ,  G10L 15/28
FI (4件):
G10L 3/00 537 H ,  G10L 3/00 537 G ,  G10L 3/00 537 A ,  G10L 3/00 561 J
Fターム (3件):
5D015HH11 ,  5D015HH23 ,  5D015LL03

前のページに戻る