特許
J-GLOBAL ID:200903082250728451

Web情報収集方法および装置

発明者:
出願人/特許権者:
代理人 (1件): 一色 健輔 (外3名)
公報種別:公開公報
出願番号(国際出願番号):特願2000-288906
公開番号(公開出願番号):特開2002-099460
出願日: 2000年09月22日
公開日(公表日): 2002年04月05日
要約:
【要約】【課題】 探索ロボットによるWeb情報収集時間を短縮することができるWeb情報収集方法および装置を提供する。【解決手段】 探索予定のURLリストに従ってWebページを収集し、各Webページ中のリンクされたURLを抽出して探索予定リストに追加する。(37,38)。このとき、あるURLに記述されたホストに接続できない場合には、そのURLのホスト名を非探索リストに記入する(41)。また、前記抽出したURLのホスト名が前記非探索リストに存在するか否かを調べ、存在する場合にはその後の処理において当該ホストへの接続処理を行わないように制御する。
請求項(抜粋):
探索予定のURLリストに従って各URLに該当するWebページを収集し、各Webページから目録作成のための情報を抽出するとともに、各Webページ中にハイパーリンクされているURLを抽出して探索予定リストに追加する処理をコンピュータにより自動実行するWeb情報収集方法において、あるURLについて発行したHTTPリクエストに対してレスポンスが受け取れない事態が所定回数生じたときに、そのURLのホスト名を非探索リストに記入する情報処理ステップと、あるURLを前記探索予定リストに追加する前段階において、またはあるURLについてHTTPリクエストを発行する前段階において、そのURLのホスト名が前記非探索リストに存在するか否かを調べ、存在する場合には前記リスト追加の処理や前記HTTPリクエスト発行の処理を行わないように制御する情報処理ステップと、を備えたことを特徴とするWeb情報収集方法。
IPC (3件):
G06F 12/00 546 ,  G06F 17/30 110 ,  G06F 17/30 240
FI (3件):
G06F 12/00 546 B ,  G06F 17/30 110 F ,  G06F 17/30 240 A
Fターム (6件):
5B075ND36 ,  5B075NK10 ,  5B082EA02 ,  5B082GA20 ,  5B082GC04 ,  5B082HA05

前のページに戻る