特許
J-GLOBAL ID:200903048896782280

音声認識装置

発明者:
出願人/特許権者:
代理人 (1件): 京本 直樹 (外2名)
公報種別:公開公報
出願番号(国際出願番号):特願平8-171422
公開番号(公開出願番号):特開平9-311694
出願日: 1996年07月01日
公開日(公表日): 1997年12月02日
要約:
【要約】【課題】 本発明の目的は、誤検出の少ないワードスポッティング装置及び手段を提供することにある。【解決手段】 尤度計算部104は、候補単語の前後に任意の音節連鎖を付加したモデルによるフレーム同期DPマッチングを行ない、結果を検出部105へ出力する。途中尤度計算部108は、候補単語の前方に任意の音節連鎖を付与したモデルによるフレーム同期DPマッチングを行ない、各候補単語の途中尤度を検出部105へ出力する。検出部105では、尤度計算部104より出力された最適単語が閾値以上の尤度を持つとき、途中尤度計算部108の出力から、途中尤度が一定値以上の対立候補単語を探し、そのようなものがある場合は最適単語の検出を保留する。検出は対立候補単語すべての消滅により確定する。また、いずれかの対立候補単語の検出により放棄される。
請求項(抜粋):
入力された音声の一定時間(フレーム)ごとの周波数分析より前記フレームごとの特徴量を抽出する音声分析部と、候補単語の前後に任意の音節列を受理する音声モデルを付加した言語モデルと前記特徴量のパタンマッチングを前記フレームごとに行い、前記フレームごとに前記言語モデル上最適な単語系列(最適列)を選択し、その尤度を算出する尤度計算部と、前記最適列と前記尤度より、前記フレームごとの最適単語を決定し出力する検出部を備え、前記最適単語が1回以上連続する場合には、該当する時間(検出区間)内の最適単語を高々1回出力することを特徴とする音声認識装置。
IPC (3件):
G10L 3/00 561 ,  G10L 3/00 531 ,  G10L 3/00
FI (3件):
G10L 3/00 561 A ,  G10L 3/00 531 D ,  G10L 3/00 531 C

前のページに戻る