特許
J-GLOBAL ID:200903079585976475

WWW上のミラーサイト群発見装置、ミラーサイト群発見方法、この方法のプログラムおよびこのプログラムを記録した記録媒体

発明者:
出願人/特許権者:
代理人 (2件): 橋本 剛 ,  鵜澤 英久
公報種別:公開公報
出願番号(国際出願番号):特願2003-052314
公開番号(公開出願番号):特開2004-264926
出願日: 2003年02月28日
公開日(公表日): 2004年09月24日
要約:
【課題】適正なミラーサイト群を発見し、またその処理効率を高める。【解決手段】大量Webページ集合から、Webサイトのトップページとなるページを推定し(S1)、Webページ集合について推定したトップページと、それにリンクしたページからサイト集合を決定し(S2)、このサイト集合に対し、サイズが一定値以上のサイトを処理対象として絞り込み(S3)、サイト特徴素(サイトがもつリンク文字列、アンカー文字列、内部/外部リンク情報)のファイルを作成し(S4)、同じ特徴素をもつサイトペアをミラーサイト候補として選択し(S5)、ミラーサイト候補ペアの類似度からミラーサイトペアを検出する(S6)。【選択図】 図1
請求項(抜粋):
Webページ集合から、Webサイトのトップページとなるページを推定するトップページ推定手段と、 前記Webページ集合について推定したトップページと、それにリンクしたページからサイト集合を決定する手段と、 前記Webページ集合について決定したサイト集合に対し、ミラーサイト群を求める手段とを有する、 ことを特徴とするミラーサイト群発見装置。
IPC (2件):
G06F17/30 ,  G06F12/00
FI (4件):
G06F17/30 350C ,  G06F17/30 110C ,  G06F17/30 419B ,  G06F12/00 546A
Fターム (8件):
5B075KK02 ,  5B075NK44 ,  5B075NR12 ,  5B075NR14 ,  5B075PR06 ,  5B075QP01 ,  5B082HA01 ,  5B082HA08

前のページに戻る