特許
J-GLOBAL ID:200903076047534919

コンピュータのネットワークからワールドワイドウェッブ上のページを捜し出したり、ドキュメントを捜し出したりするためのシステム及び方法

発明者:
出願人/特許権者:
代理人 (1件): 中村 稔 (外6名)
公報種別:公表公報
出願番号(国際出願番号):特願平9-522215
公開番号(公開出願番号):特表平10-512699
出願日: 1996年12月10日
公開日(公表日): 1998年12月02日
要約:
【要約】迅速に、ネットワークによって接続されているコンピュータからワールドワイドウェッブ上のウェッブページをフェッチして解析するためのウェッブクローラーシステム及び方法であり、ランダムアクセスメモリ(RAM)に記憶されたハッシュテーブル及びシーケンシャルウェッブインフォメーションディスクファイルを含む。システムに既知である全てのウェッブページについて、ウェッブクローラーシステムは、ハッシュテーブルにより小さなエントリーを記憶するのに加えて、シーケンシャルディスクファイルにエントリーを記憶する。ハッシュテーブルエントリーは、識別値、対応するウェッブページが上手くフェッチされた時だけ真がセットされるフェッチフラグ、対応するエントリーがシーケンシャルディスクファイルのどこに記憶されているかを示すファイル位置インジケータを含む。シーケンシャルディスクファイルのエントリーの各々は、対応するウェッブページのURL及びそのウェッブページに関するフェッチステータス情報を含む。ウェッブインフォメーションディスクファイルへの全てのアクセスは入力バッファを経由してシーケンシャルに行われ、単一のI/Oオペレーションとして、シーケンシャルディスクファイルからの多数のエントリーが入力バッファへ移されるようにする。従って、シーケンシャルディスクファイルは入力バッファからアクセスされる。同様に、シーケンシャルファイルに加えられるべき全ての新しいエントリーは付加バッファに記憶され、付加バッファが一杯になった時はいつでも、付加バッファの内容はシーケンシャルファイルの最後に加えられる。このようにして、ウェッブインフォメーションディスクファイルへのランダムアクセスは排除され、ディスクアクセス制限によって引き起こされる待ち時間は減少される。
請求項(抜粋):
各ウェッブページは固有のURL(ユニバーサルリソースロケータ)を有し、少なくともいくつかの前記ウェッブページは他のウェッブページへのURLリンクを含んでいるような、遠隔地に配置されたアクセス可能なコンピュータに記憶されているウェッブページを含むデータセットを捜し出すためのシステムであり、 対応するURLに従って、前記の遠隔地に配置されたコンピュータから特定のウェッブページをフェッチするための通信インターフェースと、 エントリーの各々が対応するウェッブページのURL及びフェッチステータス情報を示すような一セットのエントリーを有するウェッブインフォメーションファイルと、 RAM(ランダムアクセスメモリ)に記憶されていて、エントリーの各々が、対応するウェッブページの識別値及びフェッチステータス情報を示すようなエントリー一セットを有するウェッブインフォメーションテーブルと、 ウェッブインフォメーションファイルのエントリーが前記フェッチステータス情報に基づく事前に規定された選定規準を満たすようなウェッブページをフェッチするための命令と、受け取られた各々のウェッブページ中の各々のURLリンクについて、ウェッブインフォメーションテーブル中に対応するエントリーが既に存在するかどうかを決定し、ウェッブインフォメーションテーブルに対応するエントリーを有していないURLリンクの各々について、ウェッブインフォメーションテーブルに新しいエントリーを加え、ウェッブインフォメーションファイルに対応する新しいエントリーを加えるための命令とを含む、前記システムによって実行される、ウェッブページをフェッチして解析するためのウェッブスクータープロシジャーを実行する手段と を備えるシステム。
FI (2件):
G06F 15/40 310 F ,  G06F 15/419 320

前のページに戻る