特許
J-GLOBAL ID:200903090698287440

文書データ・クラスタリングシステム

発明者:
出願人/特許権者:
代理人 (1件): 役 昌明 (外3名)
公報種別:公開公報
出願番号(国際出願番号):特願2000-377606
公開番号(公開出願番号):特開2002-183171
出願日: 2000年12月12日
公開日(公表日): 2002年06月28日
要約:
【要約】【課題】 文書データをクラスタリング対象に応じたクラスタ数に分類できる文書クラスタリングシステムを提供する。【解決手段】 特徴ベクトル作成手段103が作成した各文書の特徴ベクトルの組を特異値分解し、特異値分解の結果106から文書間の類似度を計算するための文書類似ベクトル108を作成する。クラスタ作成手段110は、対象文書に対して文書類似ベクトルを用いて、文書とクラスタ重心との距離を算出し、さらに同一の対象文書に対して一回目の分類に利用した文書類似ベクトルの次元数を増加させて二回目の分類を行い、双方の結果を比較し変化の少ないクラスタを安定クラスタとする。データ選択手段109は、安定クラスタの文書を対象から除いてクラスタ作成手段の次の分類の対象文書を選定し、この試行を繰り返す。段階的に分類を繰り返すことにより、クラスタ数を事前に決定していなくても、対象に応じたクラスタ数を決定できる。
請求項(抜粋):
機械可読な文書データを格納した文書データベースと、機械可読な単語を格納した辞書とを備え、前記文書データベースに格納された文書をクラスタリングする文書データ・クラスタリングシステムにおいて、文書中の前記辞書に格納された単語の出現頻度をもとに前記文書データベースに格納された文書の特徴ベクトルを作成する特徴ベクトル作成手段と、前記特徴ベクトル作成手段により作成された特徴ベクトルの組を特異値分解する特異値分解手段と、前記特異値分解の結果から文書間の類似度を計算するための文書類似ベクトルを作成する文書類似ベクトル作成手段と、前記文書類似ベクトル作成手段により作成された文書類似ベクトルの組により前記文書データベース中の全てまたは一部の文書を対象にクラスタを作成するクラスタ作成手段と、作成されたクラスタの情報を格納するクラスタ情報テーブルと、前記クラスタ情報テーブルを参照して前記クラスタ作成手段でのクラスタリングの対象となる文書を前記文書データベースから選択するクラスタリングデータ選択手段とを具備し、前記クラスタ作成手段は、クラスタリング対象の文書に対して、前記文書類似ベクトルを用いて、文書とクラスタ重心との距離を算出し、さらに同一のクラスタリング対象の文書に対して、一回目のクラスタリングに利用した文書類似ベクトルの次元数を適度な範囲で増加させて二回目のクラスタリングを行い、二回のクラスタリング結果を比較して、変化の少ないクラスタを安定したクラスタとして判別し、前記クラスタリングデータ選択手段は、前記安定したクラスタに割り当てられた文書をクラスタリング対象から取り除いて、前記クラスタ作成手段が次に行うクラスタリングの対象を選定し、前記クラスタ作成手段と前記クラスタリングデータ選択手段との間で、この試行を繰り返すことを特徴とする文書データ・クラスタリングシステム。
IPC (4件):
G06F 17/30 210 ,  G06F 17/30 170 ,  G06F 17/30 340 ,  G06F 17/30 350
FI (4件):
G06F 17/30 210 D ,  G06F 17/30 170 A ,  G06F 17/30 340 B ,  G06F 17/30 350 C
Fターム (8件):
5B075ND03 ,  5B075NK06 ,  5B075NR12 ,  5B075PQ02 ,  5B075PR04 ,  5B075PR06 ,  5B075QM08 ,  5B075UU06

前のページに戻る