特許
J-GLOBAL ID:200903074723676214

単語分類処理方法、単語分類処理装置及び音声認識装置

発明者:
出願人/特許権者:
代理人 (1件): 青山 葆 (外2名)
公報種別:公開公報
出願番号(国際出願番号):特願平8-198950
公開番号(公開出願番号):特開平9-282321
出願日: 1996年07月29日
公開日(公表日): 1997年10月31日
要約:
【要約】【課題】 単語分類処理によりバランスのとれた階層構造を有しかつ全体的に最適化された単語分類結果を得ることができる単語分類処理方法、単語分類処理装置、及びその単語分類処理装置を備えた音声認識装置を提供する。【解決手段】 複数の単語を含むテキストデータに対して、互いに異なるすべての複数v個の単語の出現頻度を調べ、出現頻度の高い単語から順に並べて、複数v個のクラスに割り当て、上記複数v個のクラスの単語のうち出現頻度が高いv個未満の(c+1)個のクラスの単語を1つのウィンドウ内のクラスの単語として第1のメモリに記憶し、当該クラスの単語に基づいて、所定の平均相互情報量が最大となるように、複数の単語を二分木の形式で複数c個のクラスに分類して単語分類結果を表わす全体のツリー図の中間層を求め、当該中間層を中心として、上側層と、中間層の各クラス毎の複数の下側層とを求めて、全体のツリー図を求める。
請求項(抜粋):
複数の単語を含むテキストデータに対して、互いに異なるすべての複数v個の単語の出現頻度を調べ、出現頻度の高い単語から順に並べて、複数v個のクラスに割り当てるステップと、上記複数v個のクラスの単語のうち出現頻度が高いv個未満の(c+1)個のクラスの単語を1つのウィンドウ内のクラスの単語として第1の記憶装置に記憶するステップと、上記第1の記憶装置に記憶された1つのウィンドウ内のクラスの単語に基づいて、互いに異なる第1のクラスの単語と第2のクラスの単語とが隣接して出現する確率を、上記第1のクラスの単語の出現確率と第2のクラスの単語の出現確率との積に対する相対的な頻度の割合を表わす所定の平均相互情報量が最大となるように、上記複数の単語を二分木の形式で複数c個のクラスに分類し、分類された複数c個のクラスを、単語分類結果を表わす全体のツリー図の中間層の複数c個のクラスとして第2の記憶装置に記憶するステップと、上記第2の記憶装置に記憶された中間層の複数c個のクラスに基づいて、上記平均相互情報量が最大となるように、上記複数の単語を二分木の形式で1個のクラスになるまで分類し、当該分類結果を上記ツリー図の上側層として第3の記憶装置に記憶するステップと、上記第2の記憶装置に記憶された中間層の複数c個のクラスの各クラス毎に、上記中間層の複数c個のクラスの各クラス内の複数の単語に基づいて、上記平均相互情報量が最大となるように、上記複数の単語を二分木の形式で1個のクラスになるまでそれぞれ分類し、当該各クラス毎の複数の分類結果を上記ツリー図の下側層として第4の記憶装置に記憶するステップと、上記第4の記憶装置に記憶された上記ツリー図の下側層を、上記第2の記憶装置に記憶された上記中間層の複数c個のクラスと連結する一方、上記第3の記憶装置に記憶された上記ツリー図の上側層を、上記第2の記憶装置に記憶された上記中間層の複数c個のクラスと連結することにより、上側層と中間層と下側層とを備えた上記ツリー図を求めて単語分類結果として第5の記憶装置に記憶するステップとを備えたことを特徴とする単語分類処理方法。
IPC (3件):
G06F 17/28 ,  G06F 17/27 ,  G10L 3/00 561
FI (3件):
G06F 15/38 C ,  G10L 3/00 561 G ,  G06F 15/38 E

前のページに戻る