特許
J-GLOBAL ID:200903098958135250

大語彙音声認識装置

発明者:
出願人/特許権者:
代理人 (1件): 深見 久郎
公報種別:公開公報
出願番号(国際出願番号):特願平8-249548
公開番号(公開出願番号):特開平10-097275
出願日: 1996年09月20日
公開日(公表日): 1998年04月14日
要約:
【要約】【課題】 超大語彙を対象としても安価なハードウェア構成で実時間動作可能な大語彙音声認識装置を提供する。【解決手段】 音声波形を音響分析部1で分析して音響パラメータを抽出し、パーザ5の前向き演算部6で制約の緩い音素ネットワークを参照してビタービサーチを行ない、後向き演算部7で木構造化した単語辞書を参照してA* アルゴリズムを用いて最適な単語候補を導出する。
請求項(抜粋):
音素環境依存型音素隠れマルコフモデルを用いた音声認識装置において、音声を入力するための入力手段と、前記入力手段から入力された音声を短時間フレームごとに分析し、特徴ベクトルを抽出する特徴ベクトル抽出手段、前記特徴ベクトル抽出手段によって抽出された特徴ベクトルに基づいて、語頭の前および語尾の後に無音モデルを付加した認識語彙を音素環境依存型音素列で表現し、それら音素をアークとする木構造の辞書に変換する辞書作成手段、および、前向き演算部と後向き演算部とを含むパーザ手段を備え、前記前向き演算部は、音素環境を考慮した音素単位の制約条件下で駆動するビタービサーチを行ない、前記後向き演算部は、音素環境を考慮した木構造辞書を参照しながらビタービサーチを用いて仮説を展開し、前向き演算結果のスコアと音素単位で実行した後向きビタービサーチの演算結果のスコアの和を利用したA* アルゴリズムを用いて展開する順番をbest-firstに決定し、受理された仮説の順にそれを認識結果の単語候補として出力し、所定の個数の単語候補が求まれば後向き演算を終了することを特徴とする、大語彙音声認識装置。
IPC (2件):
G10L 3/00 535 ,  G10L 3/00 531
FI (2件):
G10L 3/00 535 ,  G10L 3/00 531 D
引用特許:
審査官引用 (3件)
  • 不特定話者連続音声認識方法
    公報種別:公開公報   出願番号:特願平5-247835   出願人:株式会社エイ・ティ・アール音声翻訳通信研究所
  • 音声認識用確率モデル
    公報種別:公開公報   出願番号:特願平4-064619   出願人:株式会社エイ・ティ・アール自動翻訳電話研究所
  • 音声認識方法
    公報種別:公開公報   出願番号:特願平7-041948   出願人:日本電信電話株式会社

前のページに戻る