特許
J-GLOBAL ID:200903036474903397

クラスタリング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体

発明者:
出願人/特許権者:
代理人 (2件): 伊東 忠彦 ,  石原 隆治
公報種別:公開公報
出願番号(国際出願番号):特願2006-161953
公開番号(公開出願番号):特開2007-334388
出願日: 2006年06月12日
公開日(公表日): 2007年12月27日
要約:
【課題】類似していると人間が感じる文書を高精度で同一クラスタに集約することができ、利用者の意図を反映したクラスタリング結果を得る。【解決手段】本発明は、利用者が指定した複数のクラスタ内の文書に共通して出現する共通単語を取得し、共通単語のうち、利用者が指定しなかったクラスタでの出現頻度に比べて、該利用者が指定したクラスタ内での出現頻度が相対的に高い共通単語を選択し、該共通単語をキーワードとして、キーワード記憶手段に記録し、同一もしくは他の文書集合に対してクラスタリングを実施する際に、キーワード記憶手段に記録されているキーワードの影響力を強調してクラスタリングを行う。【選択図】図1
請求項(抜粋):
類似文書を集約した文書クラスタが複数存在する状況において、利用者が指定した2個以上のクラスタ間の共通概念を検出して記録し、同一もしくは他の文書群に対してクラスタリングを実施する際に、該共通概念を持つ文書が同一クラスタに収まりやすくする装置におけるクラスタリング方法であって、 共通単語取得手段が、利用者が指定した複数のクラスタ内の文書に共通して出現する共通単語を取得する共通単語取得ステップと、 キーワード選択手段が、前記共通単語のうち、前記利用者が指定しなかったクラスタでの出現頻度に比べて、該利用者が指定したクラスタ内での出現頻度が相対的に高い共通単語を選択し、該共通単語をキーワードとして、キーワード記憶手段に記録するキーワード選択ステップと、 クラスタリング手段が、同一もしくは他の文書集合に対してクラスタリングを実施する際に、前記キーワード記憶手段に記録されている前記キーワードの影響力を強調してクラスタリングを行うクラスタリングステップと、 を行うことを特徴とするクラスタリング方法。
IPC (1件):
G06F 17/30
FI (3件):
G06F17/30 210D ,  G06F17/30 170A ,  G06F17/30 220A
Fターム (4件):
5B075ND03 ,  5B075NR12 ,  5B075NS01 ,  5B075UU06
引用特許:
出願人引用 (5件)
全件表示
審査官引用 (5件)
全件表示

前のページに戻る