特許
J-GLOBAL ID:200903058600999366

音声認識装置

発明者:
出願人/特許権者:
代理人 (1件): 田澤 博昭 (外1名)
公報種別:公開公報
出願番号(国際出願番号):特願平11-060418
公開番号(公開出願番号):特開2000-259175
出願日: 1999年03月08日
公開日(公表日): 2000年09月22日
要約:
【要約】【課題】 コーパスの量が十分でない場合でも、異常な単語連鎖についてはバイグラム確率として0ないしきわめて小さい値を与える言語モデルをもった音声認識装置を提供する。【解決手段】 階層構造の統計的言語モデルをもち、先行単語によって、言語バイグラムを計算するための最適な階層を決定する言語モデル階層決定手段12、および連鎖単語のバイグラム確率を最適な階層のクラスの出現頻度を考慮することによって、奇異な単語連鎖の言語尤度についてきわめて小さい値を与える言語尤度計算手段13を備え、異常な単語連鎖についてはバイグラム確率として0ないし0に近い小さい値を与えることを可能として、認識性能・認識処理速度を向上させる。
請求項(抜粋):
コーパスから作成した統計的言語モデルを用いて入力音声の音声認識を行う音声認識装置において、入力音声をデジタルデータ化し、それを音声データとして記憶する音声取得手段と、前記音声データを所定時刻ごとに音響分析して音響特徴ベクトルを出力する音響分析手段と、音韻モデルを記憶する音韻モデル記憶手段と、単語辞書を記憶する単語辞書記憶手段と、前記音響分析手段より出力された音響特徴ベクトル、前記音韻モデル記憶手段に記憶されている音韻モデル、および前記単語辞書に記憶されている単語辞書から、認識仮説の音響尤度を計算する音響尤度計算手段と、前記統計的言語モデルを記憶する言語モデル記憶手段と、単語遷移した前記認識仮説について、その単語連鎖の言語モデルを計算する際の言語モデルの階層を決定する言語モデル階層決定手段と、前記言語モデル記憶手段に記憶されている統計的言語モデルを参照し、前記言語モデル階層決定手段の決定した言語モデルの階層から認識仮説の言語尤度を計算する言語尤度計算手段と、前記音響尤度計算手段の計算した認識仮説の音響尤度と、前記言語尤度計算手段の計算した認識仮説の言語尤度に基づいた、最終的な認識候補を出力する認識結果出力手段とを備え、前記統計的言語モデルは階層構造をもち、音声認識の処理状況に応じて適切な階層の言語モデルを使用することを特徴とする音声認識装置。
IPC (2件):
G10L 15/18 ,  G10L 15/14
FI (2件):
G10L 3/00 537 D ,  G10L 3/00 535 Z
Fターム (2件):
5D015HH23 ,  5D015JJ07
引用特許:
審査官引用 (3件)
引用文献:
前のページに戻る