Webページグループ抽出方法及び装置及びプログラム

発明者： ,
出願人/特許権者：
代理人 (2件)：伊東忠彦 , 石原隆治
公報種別：公開公報
出願番号（国際出願番号）：特願2008-297242
公開番号（公開出願番号）：特開2010-123000
出願日： 2008年11月20日
公開日（公表日）： 2010年06月03日
要約：

【課題】大量のURLからURL情報のみを用いて、ページ単位に同様の内容を持つWebページをグループとして抽出する。【解決手段】本発明は、入力されたアクセスログからURLを抽出し、URLを文字列と見做し、各部位毎に部分文字列として分割し、出現する部分文字列に基づいて、特徴ベクトルを生成し、特徴ベクトル間の類似度を求め、特徴ベクトル間の類似度に基づいてクラスタリングを行い、生成されたクラスタに含まれるURLをWebページグループとして抽出し、出力する。【選択図】図1

請求項（抜粋）：

アクセスログから、異なるURLであるが、同じWebページ、あるいは、同じ種類のWebページをグループとして抽出する方法であって、アクセスログ入力手段が、入力された前記アクセスログからURLを抽出しURL記憶手段に格納するURL抽出ステップと、文字列分割手段が、前記URL記憶手段から前記URLを読み出して、該URLを文字列と見做し、各部位毎に部分文字列として分割する文字列分割ステップと、特徴ベクトル算出手段が、出現する前記部分文字列に基づいて、特徴ベクトルを生成し、特徴ベクトル記憶手段に格納する特徴ベクトル算出ステップと、類似度算出手段が、前記特徴ベクトル記憶手段から特徴ベクトルを読み出して、特徴ベクトル間の類似度を求め、類似度記憶手段に格納する類似度算出ステップと、クラスタリング手段が、前記類似度記憶手段から特徴ベクトル間の類似度を読み出してクラスタリングを行い、生成されたクラスタに含まれるURLをWebページグループとして抽出し、URL分類記憶手段に出力するクラスタリングステップと、を行うことを特徴とするWebページグループ抽出方法。

IPC (2件)：

G06F 17/30 , G06F 13/00

FI (3件)：

G06F17/30 210D , G06F13/00 510A , G06F17/30 350C

Fターム (5件)：

5B075KK02 , 5B075ND36 , 5B075NR12 , 5B075PR03 , 5B075UU40

引用特許：

出願人引用 (1件)

WWW上のミラーサイト群発見装置、ミラーサイト群発見方法、この方法のプログラムおよびこのプログラムを記録した記録媒体
公報種別：公開公報出願番号：特願2003-052314 出願人：日本電信電話株式会社

審査官引用 (7件)

コンテンツ分類方法、コンテンツ分類装置、コンテンツ分類用プログラムおよびコンテンツ分類用プログラムを記憶した記憶媒体
公報種別：公開公報出願番号：特願2003-139281 出願人：日本電信電話株式会社
Webページから時系列データを生成する方法及び装置
公報種別：公開公報出願番号：特願2005-153975 出願人：株式会社東芝
URLの類似性分析による処理省略判定プログラム、装置
公報種別：公開公報出願番号：特願2007-193842 出願人：ヤフー株式会社

全件表示

前のページに戻る