特許
J-GLOBAL ID:200903064758225252
音声認識装置および文分類装置としてコンピュータを動作させるコンピュータプログラム、階層化された言語モデルを作成する方法を実現する様にコンピュータを動作させるコンピュータプログラム、および記憶媒体
発明者:
,
,
,
出願人/特許権者:
代理人 (1件):
清水 敏
公報種別:公開公報
出願番号(国際出願番号):特願2002-365074
公開番号(公開出願番号):特開2004-198597
出願日: 2002年12月17日
公開日(公表日): 2004年07月15日
要約:
【課題】計算コストの増加を抑えながら、自動的にドメインを切替えて精度よく音声認識を行なえるようにする。【解決手段】このプログラムにより実現される音声認識装置は、階層化言語モデルを用いるもので、上位層の汎用言語モデルを用いて音声認識を行なう汎用音声認識部220と、その認識結果と、下位層のトピック毎の言語モデルとの距離を算出して認識結果のトピックを検出するためのトピック検出部222と、選択されたトピックを記憶するためのトピック記憶部230と、記憶されたトピックに対応する言語モデルを用いて音声認識を行なうためのトピック別音声認識部226と、汎用音声認識部220の認識結果とトピック別音声認識部226の認識結果のうち、信頼度の高いものを選択する選択部236とを含む。【選択図】 図7
請求項(抜粋):
ツリー構造の各ノードに対応する言語モデルの集合を含む階層的言語モデルを用いた音声認識装置としてコンピュータを動作させるコンピュータプログラムであって、
前記音声認識装置は、
前記ツリー構造のルートノードに対応する言語モデルを用いて入力に対する音声認識を行ない、音声認識の信頼度とともに認識結果を出力するための第1の音声認識手段と、
前記第1の音声認識手段の出力する認識結果と、前記階層的言語モデル中の前記ツリー構造の葉ノードの各々との間で計算される所定の指標に基づき、前記階層的言語モデル中の前記ツリー構造の葉ノードの内のいずれかを選択するための第1のノード選択手段と、
前記第1のノード選択手段により選択された葉ノードを特定する情報を記憶するための記憶手段と、
前記記憶手段に記憶された情報により特定される葉ノードに対応する言語モデルを用いて入力に対する音声認識を行ない、音声認識の信頼度とともに認識結果を出力するための第2の音声認識手段と、
前記第1の音声認識手段から与えられる信頼度と、前記第2の音声認識手段から与えられる信頼度とに基づいて、前記第1の音声認識手段の音声認識結果と前記第2の音声認識手段による音声認識結果とのうち、より高い信頼度に対応するものを選択するための手段とを含む、コンピュータプログラム。
IPC (3件):
G10L15/18
, G10L15/06
, G10L15/28
FI (4件):
G10L3/00 537F
, G10L3/00 521W
, G10L3/00 571C
, G10L3/00 537D
Fターム (4件):
5D015HH00
, 5D015HH11
, 5D015LL02
, 5D015LL09
引用特許: