特許
J-GLOBAL ID:200903009180363311

動詞クラスタリング装置および方法と動詞クラスタリングプログラムを記録した記録媒体

発明者:
出願人/特許権者:
代理人 (1件): 三好 秀和 (外1名)
公報種別:公開公報
出願番号(国際出願番号):特願平10-313591
公開番号(公開出願番号):特開2000-148762
出願日: 1998年11月04日
公開日(公表日): 2000年05月30日
要約:
【要約】【課題】 統計的に精度が良く、意味的に近い動詞を同じクラスタに分類する動詞クラスタリング装置および方法と動詞クラスタリングプログラムを記録した記録媒体を提供する。【解決手段】 動詞集合が共起頻度算出部100に入力されると、共起頻度算出部は動詞集合内の各動詞と人手によって意味的に名詞が木構造に分類された名詞シソーラスの各ノードとの共起頻度を算出し、ベイズ推定量算出部200は共起頻度情報を用いて有限のサンプルに対して真の分布との2乗誤差がベイズ基準のもとで最小となることが保証されたベイズ推定量を算出し、クラスタマージ部300は動詞集合とベイズ推定量を入力され、KL情報量を評価尺度にして動詞集合のクラスタリングを行い、該クラスタリングによって得られた統計的に精度が良く意味的に近い動詞が同じクラスタに所属するようにクラスタリングされた動詞集合のクラスタリング結果を出力する。
請求項(抜粋):
動詞集合を入力され、コーパス中の文書データにおける名詞シソーラスの各ノードと動詞集合の各動詞との共起頻度を算出する共起頻度算出手段と、この算出された共起頻度情報を入力され、各動詞または動詞クラスタが名詞シソーラスの各ノードと共起する多項分布のベイズ推定量を算出するベイズ推定量算出手段と、前記動詞集合と前記ベイズ推定量を入力され、カルバック・ライブラー情報量を評価尺度として動詞のクラスタと名詞シソーラスの各ノードとの共起する多項分布がクラスタ内の各動詞と名詞シソーラスの各ノードとの共起する多項分布に近い近似となるような動詞集合のクラスタリング結果を出力するクラスタマージ手段とを有し、前記動詞集合からカルバック・ライブラー情報量を評価尺度にして動詞のクラスタと名詞シソーラスの各ノードとの共起する多項分布が前記クラスタ内の各動詞と名詞シソーラスの各ノードとの共起する多項分布に近い近似となる動詞集合のクラスタリング結果を出力することを特徴とする動詞クラスタリング装置。
IPC (2件):
G06F 17/30 ,  G06F 17/28
FI (3件):
G06F 15/401 310 D ,  G06F 15/38 U ,  G06F 15/38 C
Fターム (11件):
5B075NK32 ,  5B075NR02 ,  5B075NR05 ,  5B075NR12 ,  5B075UU06 ,  5B091AA15 ,  5B091CA12 ,  5B091CC05 ,  5B091EA01 ,  5B091EA02 ,  5B091EA24

前のページに戻る