特許
J-GLOBAL ID:200903072069337127

音声スポッティング装置

発明者:
出願人/特許権者:
代理人 (1件): 宮田 金雄 (外2名)
公報種別:公開公報
出願番号(国際出願番号):特願平9-359133
公開番号(公開出願番号):特開平11-190999
出願日: 1997年12月26日
公開日(公表日): 1999年07月13日
要約:
【要約】【課題】 スポッティング用ネットワークの最終ノードを各時刻ごとに選択しスポッティングスコア算出をする方式を実現する。【解決手段】 入力音声信号101を分析し変換する分析手段1による特徴ベクトル時系列102に対しヒューリスティック言語モデル照合手段2で先行/後続ヒューリスティック言語モデルの最終/初期状態でヒューリスティック前/後向き尤度103/104を算出し、当該前向き尤度103と特徴ベクトル時系列102に対しネットワーク照合手段3でスポッティング用ネットワークの複数個の最終ノードごとに最尤前向き尤度105とノード履歴情報106を算出する。バックトラックノード選択手段4で選択する当該最尤前向き尤度105の値が高い上位L個の最終ノード番号107と当該後向き尤度104とノード履歴情報10とに対しスポッティング結果出力手段5でバックトラック処理を施しスポッティング結果108を出力する。
請求項(抜粋):
入力音声信号に対し分析をし当該特徴ベクトル時系列に変換をする分析手段と、該分析手段による特徴ベクトル時系列に対し、別途設けるスポッティング対象音声に先行/後続をする種々の発話内容音声の特徴ベクトル時系列に対し音素環境依存モデルによるモデル化をする先行/後続ヒューリスティック言語モデルを用い、時間軸上の順/逆方向に当該先行/後続ヒューリスティック言語モデルの最終/初期状態でヒューリスティック前/後向き尤度を算出するヒューリスティック言語モデル照合手段と、該ヒューリスティック言語モデル照合手段によるヒューリスティック前向き尤度と前記分析手段による特徴ベクトル時系列とに対し、別途設けるスポッティング対象音声の特徴ベクトル時系列に対し音素環境依存モデルによるモデル化をするスポッティング用ネットワークを用い、当該スポッティング用ネットワークの複数個の最終ノードごとに最尤前向き尤度とノード履歴情報とを算出するネットワーク照合手段と、該ネットワーク照合手段による最尤前向き尤度に対し、当該値が高い1個以上の前記スポッティング用ネットワークの最終ノード番号を選択するバックトラックノード選択手段と、該バックトラックノード選択手段による最終ノード番号と前記ヒューリスティック言語モデル照合手段によるヒューリスティック後向き尤度とネットワーク照合手段によるノード履歴情報とに対し、当該スポッティング用ネットワークのすべての最終ノードのうち前記最終ノード番号だけから初期ノードへと当該ノード履歴情報を辿るバックトラック処理を施して算出するスポッティング結果を出力するスポッティング結果出力手段とを備える音声スポッティング装置。
IPC (3件):
G10L 3/00 531 ,  G10L 3/00 ,  G10L 3/00 535
FI (3件):
G10L 3/00 531 C ,  G10L 3/00 531 D ,  G10L 3/00 535

前のページに戻る