Pat
J-GLOBAL ID:200903079585976475
WWW上のミラーサイト群発見装置、ミラーサイト群発見方法、この方法のプログラムおよびこのプログラムを記録した記録媒体
Inventor:
Applicant, Patent owner:
Agent (2):
橋本 剛
, 鵜澤 英久
Gazette classification:公開公報
Application number (International application number):2003052314
Publication number (International publication number):2004264926
Application date: Feb. 28, 2003
Publication date: Sep. 24, 2004
Summary:
【課題】適正なミラーサイト群を発見し、またその処理効率を高める。【解決手段】大量Webページ集合から、Webサイトのトップページとなるページを推定し(S1)、Webページ集合について推定したトップページと、それにリンクしたページからサイト集合を決定し(S2)、このサイト集合に対し、サイズが一定値以上のサイトを処理対象として絞り込み(S3)、サイト特徴素(サイトがもつリンク文字列、アンカー文字列、内部/外部リンク情報)のファイルを作成し(S4)、同じ特徴素をもつサイトペアをミラーサイト候補として選択し(S5)、ミラーサイト候補ペアの類似度からミラーサイトペアを検出する(S6)。【選択図】 図1
Claim (excerpt):
Webページ集合から、Webサイトのトップページとなるページを推定するトップページ推定手段と、
前記Webページ集合について推定したトップページと、それにリンクしたページからサイト集合を決定する手段と、
前記Webページ集合について決定したサイト集合に対し、ミラーサイト群を求める手段とを有する、
ことを特徴とするミラーサイト群発見装置。
IPC (2):
FI (4):
G06F17/30 350C
, G06F17/30 110C
, G06F17/30 419B
, G06F12/00 546A
F-Term (8):
5B075KK02
, 5B075NK44
, 5B075NR12
, 5B075NR14
, 5B075PR06
, 5B075QP01
, 5B082HA01
, 5B082HA08
Return to Previous Page