Pat
J-GLOBAL ID:200903034870951342
Webページ再収集方式
Inventor:
Applicant, Patent owner:
Agent (6):
曾我 道治
, 古川 秀利
, 鈴木 憲七
, 梶並 順
, 大宅 一宏
, 上田 俊一
Gazette classification:公開公報
Application number (International application number):2007018012
Publication number (International publication number):2008186157
Application date: Jan. 29, 2007
Publication date: Aug. 14, 2008
Summary:
【課題】個々のWebサーバに及ぼすアクセス負荷を抑えつつ、収集Webページの網羅性・収集頻度の制御を可能にするWebページ再収集方式を得る。【解決手段】ハッシュ値の比較に基づいてダウンロードしたWebページの更新の有無を検知し、ダウンロード時刻と更新の有無を履歴データとして記憶部2に記憶させ、履歴データに基づいて当該Webページが次に更新されると期待される時刻を次回ダウンロード時刻として設定して記憶部2に記憶させるWebページ再アクセススケジューリング手段6と、同一Webサーバに属する複数のWebページのそれぞれのアクセス間隔を用いて、当該Webサーバに及ぼすアクセス負荷指標を計算し、アクセス負荷指標が所定許容値を超えない場合にアクセス負荷指標に基づいて当該Webサーバに対するアクセス間隔を設定するWebサーバアクセススケジューリング手段7とを備える。【選択図】図1
Claim (excerpt):
Webサーバから前回ダウンロードしたWebページの内容またはWebページのハッシュ値を前回内容情報として記憶部に記憶させ、当該Webページを再度ダウンロードした際のWebページの内容情報と、前記記憶部に記憶された前記前回内容情報とを比較して当該Webページの更新の有無を検知し、ダウンロード時刻と前記更新の有無を対応付けたデータを履歴データとしてダウンロードを行うごとに前記記憶部にさらに記憶させ、前記履歴データに基づいて当該Webページが次に更新されると期待される時刻を次回ダウンロード時刻として設定して前記記憶部に記憶させるWebページ再アクセススケジューリング手段と、
同一Webサーバに属する複数のWebページについて、前記Webページ再アクセススケジューリング手段の有する前記記憶部に記憶された前記前回ダウンロード時刻と前記次回ダウンロード時刻との差分から求まるそれぞれのアクセス間隔を用いて、当該Webサーバに及ぼすアクセス負荷指標を計算し、前記アクセス負荷指標が所定許容値を超えない場合に前記アクセス負荷指標に基づいて当該Webサーバに対するアクセス間隔を設定するWebサーバアクセススケジューリング手段と
を備えることを特徴とするWebページ再収集方式。
IPC (1):
FI (1):
Patent cited by the Patent: