特許
J-GLOBAL ID:200903078532276343

文書分類装置及び文書分類方法、文書分類プログラム

発明者:
出願人/特許権者:
代理人 (1件): 柳澤 正夫
公報種別:公開公報
出願番号(国際出願番号):特願2002-075627
公開番号(公開出願番号):特開2003-271620
出願日: 2002年03月19日
公開日(公表日): 2003年09月26日
要約:
【要約】【課題】 大量の文書でも、精度よく、また高速に、クラスタリングを行うことができる文書分類装置及び文書分類方法、文書分類プログラムを提供する。【解決手段】 クラスタリング対象の文書を文書群分割部1で複数の文書群に分割し、予備クラスタリング部2で各文書群について予備クラスタリングを行う。このとき作成された予備クラスタについて文書統合部3で予備クラスタ内の文書を統合して統合文書とし、クラスタ解析部4において統合文書に対して再クラスタリングを行う。例えば階層的クラスタリング手法により樹状データを作成する。クラスタ抽出部5では、樹状データをもとに、統合文書をクラスタに分割し、それぞれのクラスタに属する各統合文書に統合した文書を展開することによって、各クラスタに属する文書のリストを得る。これによって、文書を各クラスタに分類することができる。
請求項(抜粋):
複数の文書をクラスタリングする文書分類装置において、クラスタリングの対象の文書を複数の文書群に分割する文書群分割手段と、前記文書群分割手段によって分割された各文書群毎にクラスタリングを行う予備クラスタリング手段と、前記予備クラスタリング手段によって各文書群から生成されたすべてのクラスタを対象にしてクラスタリングを行う再クラスタリング手段を有することを特徴とする文書分類装置。
IPC (2件):
G06F 17/30 210 ,  G06F 17/30 170
FI (2件):
G06F 17/30 210 D ,  G06F 17/30 170 A
Fターム (5件):
5B075ND03 ,  5B075ND34 ,  5B075NR02 ,  5B075NR12 ,  5B075UU06

前のページに戻る