特許
J-GLOBAL ID:201003018175112688

Webページグループ抽出方法及び装置及びプログラム

発明者:
出願人/特許権者:
代理人 (2件): 伊東 忠彦 ,  石原 隆治
公報種別:公開公報
出願番号(国際出願番号):特願2008-297242
公開番号(公開出願番号):特開2010-123000
出願日: 2008年11月20日
公開日(公表日): 2010年06月03日
要約:
【課題】大量のURLからURL情報のみを用いて、ページ単位に同様の内容を持つWebページをグループとして抽出する。【解決手段】本発明は、入力されたアクセスログからURLを抽出し、URLを文字列と見做し、各部位毎に部分文字列として分割し、出現する部分文字列に基づいて、特徴ベクトルを生成し、特徴ベクトル間の類似度を求め、特徴ベクトル間の類似度に基づいてクラスタリングを行い、生成されたクラスタに含まれるURLをWebページグループとして抽出し、出力する。【選択図】図1
請求項(抜粋):
アクセスログから、異なるURLであるが、同じWebページ、あるいは、同じ種類のWebページをグループとして抽出する方法であって、 アクセスログ入力手段が、入力された前記アクセスログからURLを抽出しURL記憶手段に格納するURL抽出ステップと、 文字列分割手段が、前記URL記憶手段から前記URLを読み出して、該URLを文字列と見做し、各部位毎に部分文字列として分割する文字列分割ステップと、 特徴ベクトル算出手段が、出現する前記部分文字列に基づいて、特徴ベクトルを生成し、特徴ベクトル記憶手段に格納する特徴ベクトル算出ステップと、 類似度算出手段が、前記特徴ベクトル記憶手段から特徴ベクトルを読み出して、特徴ベクトル間の類似度を求め、類似度記憶手段に格納する類似度算出ステップと、 クラスタリング手段が、前記類似度記憶手段から特徴ベクトル間の類似度を読み出してクラスタリングを行い、生成されたクラスタに含まれるURLをWebページグループとして抽出し、URL分類記憶手段に出力するクラスタリングステップと、 を行うことを特徴とするWebページグループ抽出方法。
IPC (2件):
G06F 17/30 ,  G06F 13/00
FI (3件):
G06F17/30 210D ,  G06F13/00 510A ,  G06F17/30 350C
Fターム (5件):
5B075KK02 ,  5B075ND36 ,  5B075NR12 ,  5B075PR03 ,  5B075UU40
引用特許:
出願人引用 (1件) 審査官引用 (7件)
全件表示

前のページに戻る