特許
J-GLOBAL ID:200903027845271497

ドキュメントクラスタリング装置

発明者:
出願人/特許権者:
代理人 (1件): 深見 久郎 (外4名)
公報種別:公開公報
出願番号(国際出願番号):特願2001-343778
公開番号(公開出願番号):特開2002-230012
出願日: 2001年11月08日
公開日(公表日): 2002年08月16日
要約:
【要約】【課題】 多数のドキュメントをクラスタリングし各クラスタの代表ドキュメントを決定する処理を、短時間でかつ簡単に行なえるように摺る。【解決手段】 ドキュメントクラスタリング装置102は、ドキュメント群を蓄積するドキュメント群蓄積部118、ドキュメント群からキーワードを抽出するキーワード抽出部18、全ドキュメント間の類似度を算出する類似度情報検索部20、類似度を記憶する類似度テーブル30、類似度の分布の偏りに基づいてクラスタリングするクラスタリング部22、クラスタの各々について代表ドキュメントを算出する代表ドキュメント算出部112、ならびに各クラスタに関する情報を作成し蓄積するクラスタリング情報作成部114およびクラスタリング情報蓄積部120を含む。装置102はさらに、追加ドキュメントを各クラスタの特徴ドキュメントと比較し分類するドキュメント分類部116を含んでもよい。
請求項(抜粋):
ドキュメント群における各ドキュメント間の類似度を算出するための類似度算出手段と、前記類似度算出手段に接続され、前記各ドキュメント間の類似度の分布の偏りに基づいて、前記ドキュメント群をクラスタリングするための類似度しきい値を算出するための類似度しきい値算出手段と、前記類似度しきい値算出手段および前記類似度算出手段に接続され、前記類似度しきい値および前記各ドキュメント間の類似度に基づいて、前記ドキュメント群をクラスタリングするためのクラスタリング手段とを含む、ドキュメントクラスタリング装置。
IPC (2件):
G06F 17/30 210 ,  G06F 17/27
FI (2件):
G06F 17/30 210 D ,  G06F 17/27 Z
Fターム (9件):
5B075ND04 ,  5B075NK04 ,  5B075NR12 ,  5B075UU06 ,  5B091AA11 ,  5B091AA15 ,  5B091CA02 ,  5B091DA02 ,  5B091EA17
引用特許:
審査官引用 (5件)
全件表示

前のページに戻る