特許
J-GLOBAL ID:200903079585976475
WWW上のミラーサイト群発見装置、ミラーサイト群発見方法、この方法のプログラムおよびこのプログラムを記録した記録媒体
発明者:
出願人/特許権者:
代理人 (2件):
橋本 剛
, 鵜澤 英久
公報種別:公開公報
出願番号(国際出願番号):特願2003-052314
公開番号(公開出願番号):特開2004-264926
出願日: 2003年02月28日
公開日(公表日): 2004年09月24日
要約:
【課題】適正なミラーサイト群を発見し、またその処理効率を高める。【解決手段】大量Webページ集合から、Webサイトのトップページとなるページを推定し(S1)、Webページ集合について推定したトップページと、それにリンクしたページからサイト集合を決定し(S2)、このサイト集合に対し、サイズが一定値以上のサイトを処理対象として絞り込み(S3)、サイト特徴素(サイトがもつリンク文字列、アンカー文字列、内部/外部リンク情報)のファイルを作成し(S4)、同じ特徴素をもつサイトペアをミラーサイト候補として選択し(S5)、ミラーサイト候補ペアの類似度からミラーサイトペアを検出する(S6)。【選択図】 図1
請求項(抜粋):
Webページ集合から、Webサイトのトップページとなるページを推定するトップページ推定手段と、
前記Webページ集合について推定したトップページと、それにリンクしたページからサイト集合を決定する手段と、
前記Webページ集合について決定したサイト集合に対し、ミラーサイト群を求める手段とを有する、
ことを特徴とするミラーサイト群発見装置。
IPC (2件):
FI (4件):
G06F17/30 350C
, G06F17/30 110C
, G06F17/30 419B
, G06F12/00 546A
Fターム (8件):
5B075KK02
, 5B075NK44
, 5B075NR12
, 5B075NR14
, 5B075PR06
, 5B075QP01
, 5B082HA01
, 5B082HA08
前のページに戻る