Pat
J-GLOBAL ID:200903009180363311

動詞クラスタリング装置および方法と動詞クラスタリングプログラムを記録した記録媒体

Inventor:
Applicant, Patent owner:
Agent (1): 三好 秀和 (外1名)
Gazette classification:公開公報
Application number (International application number):1998313591
Publication number (International publication number):2000148762
Application date: Nov. 04, 1998
Publication date: May. 30, 2000
Summary:
【要約】【課題】 統計的に精度が良く、意味的に近い動詞を同じクラスタに分類する動詞クラスタリング装置および方法と動詞クラスタリングプログラムを記録した記録媒体を提供する。【解決手段】 動詞集合が共起頻度算出部100に入力されると、共起頻度算出部は動詞集合内の各動詞と人手によって意味的に名詞が木構造に分類された名詞シソーラスの各ノードとの共起頻度を算出し、ベイズ推定量算出部200は共起頻度情報を用いて有限のサンプルに対して真の分布との2乗誤差がベイズ基準のもとで最小となることが保証されたベイズ推定量を算出し、クラスタマージ部300は動詞集合とベイズ推定量を入力され、KL情報量を評価尺度にして動詞集合のクラスタリングを行い、該クラスタリングによって得られた統計的に精度が良く意味的に近い動詞が同じクラスタに所属するようにクラスタリングされた動詞集合のクラスタリング結果を出力する。
Claim (excerpt):
動詞集合を入力され、コーパス中の文書データにおける名詞シソーラスの各ノードと動詞集合の各動詞との共起頻度を算出する共起頻度算出手段と、この算出された共起頻度情報を入力され、各動詞または動詞クラスタが名詞シソーラスの各ノードと共起する多項分布のベイズ推定量を算出するベイズ推定量算出手段と、前記動詞集合と前記ベイズ推定量を入力され、カルバック・ライブラー情報量を評価尺度として動詞のクラスタと名詞シソーラスの各ノードとの共起する多項分布がクラスタ内の各動詞と名詞シソーラスの各ノードとの共起する多項分布に近い近似となるような動詞集合のクラスタリング結果を出力するクラスタマージ手段とを有し、前記動詞集合からカルバック・ライブラー情報量を評価尺度にして動詞のクラスタと名詞シソーラスの各ノードとの共起する多項分布が前記クラスタ内の各動詞と名詞シソーラスの各ノードとの共起する多項分布に近い近似となる動詞集合のクラスタリング結果を出力することを特徴とする動詞クラスタリング装置。
IPC (2):
G06F 17/30 ,  G06F 17/28
FI (3):
G06F 15/401 310 D ,  G06F 15/38 U ,  G06F 15/38 C
F-Term (11):
5B075NK32 ,  5B075NR02 ,  5B075NR05 ,  5B075NR12 ,  5B075UU06 ,  5B091AA15 ,  5B091CA12 ,  5B091CC05 ,  5B091EA01 ,  5B091EA02 ,  5B091EA24

Return to Previous Page