特許
J-GLOBAL ID:200903001111039005

クラスタリング方法プログラム及び装置

発明者:
出願人/特許権者:
代理人 (1件): 大西 昭広
公報種別:公開公報
出願番号(国際出願番号):特願2004-030629
公開番号(公開出願番号):特開2004-288168
出願日: 2004年02月06日
公開日(公表日): 2004年10月14日
要約:
【課題】 文書のクラスタリングにおいて、正しい数のクラスターを求めること、及び各文書の帰属するクラスターを精度よく求めることは完全には解決されていない問題であった。【解決手段】 文書クラスタリングでは同じ話題を述べた文書がグループ化されるので、同じクラスターに属する文書群には何らかの共通性があるはずである。また、各話題には話題特有の用語や用語対が存在する。本発明ではこれらの点に着目し、各文書の着目クラスターへの近さを求めるときに、着目クラスターに特有でない用語や用語対の影響を排除しつつ着目クラスターの共通情報を用いるようにした。【選択図】図1
請求項(抜粋):
以下の(a)から(f)のステップを有する、一つまたは複数の文書セグメントを持つ複数の文書から成る入力文書集合をクラスタリングする方法、 (a)入力文書集合に対して、出現する用語の頻度をもとに文書頻度行列を求めるステップと、 (b)その時点で存在するどのクラスターにも含まれない残存文書の集合の中から選択した種文書をもとに、初期状態の着目クラスターを作成するステップと、 (c)前記入力文書集合の文書頻度行列、前記着目クラスターに対して出現する用語の情報をもとに求められるクラスターの文書頻度行列とクラスターの共通共起行列の情報を用いて、入力文書集合に含まれる全文書の前記着目クラスターに対する文書共通度を求め、一定値以上の前記文書共通度を有する文書を着目クラスターに一時的に帰属させるステップと、 (d)(c)のステップを前記着目クラスターに一時的に帰属する文書数が前回の繰り返しと同じになるまで繰返すステップと、 (e)上記(b)から(d)までのステップを、所定の収束条件を満足するまで繰返すステップと、 (f)各文書の各クラスターに対する前記文書共通度をもとに、各文書の帰属するクラスターを決定するステップ。
IPC (1件):
G06F17/30
FI (3件):
G06F17/30 210D ,  G06F17/30 170A ,  G06F17/30 350C
Fターム (4件):
5B075ND03 ,  5B075NR12 ,  5B075QM05 ,  5B075UU06
引用特許:
出願人引用 (1件) 審査官引用 (1件)
引用文献:
出願人引用 (1件) 審査官引用 (1件)

前のページに戻る