特許
J-GLOBAL ID:200903068643659076

ウェブ情報収集装置とウェブクローラープログラム、及びウェブ情報収集方法

発明者:
出願人/特許権者:
代理人 (1件): 林 靖
公報種別:公開公報
出願番号(国際出願番号):特願2004-168034
公開番号(公開出願番号):特開2005-346598
出願日: 2004年06月07日
公開日(公表日): 2005年12月15日
要約:
【課題】本発明は、人手による学習データの作成と更新が不要で、ターゲットとするウェブページだけを自動的に収集し、ノイズとなる情報は極力収集しないウェブ情報収集装置とウェブクローラープログラム、及びウェブ情報収集方法を提供することを目的とする。【解決手段】本発明のウェブ情報収集装置2は、ウェブサーバ3a,3b,3cから巡回的にウェブ情報を取得し、このウェブ情報が特定分野に関連する目的情報か非目的情報かを判定するとともに、リンク元の第2のウェブ情報を取得してテキスト情報部分に含まれる単語を抽出し、目的情報または非目的情報の場合ごとに各単語の累積頻度を学習し、抽出した単語の出現頻度と学習した累積頻度によって優先度を計算して、該優先度の大きさによって優先的にアクセスするリンク先を決定する制御部4を備え、リンク情報を辿ってウェブ情報を収集することを主要な特徴とする。【選択図】図1
請求項(抜粋):
ネットワークに接続されたウェブサーバからウェブ情報を取得し、該ウェブ情報のテキスト情報部分から単語を抽出し、既知の単語情報を基に前記単語の目的情報との関連性を評価して関連性の高いウェブ情報を収集するウェブ情報収集装置であって、ウェブサーバから巡回的にウェブ情報を取得し、該ウェブ情報が目的情報かそれ以外の非目的情報かを所定の判定基準で判定するとともに、該ウェブ情報のリンク元情報である第2のウェブ情報を取得してテキスト情報部分に含まれる単語を抽出し、各単語の累積頻度を目的情報または非目的情報の場合ごとに学習し、抽出した単語の出現頻度と学習した累積頻度によって優先度を計算して、該優先度の大きさによって優先的にアクセスするリンク先を決定する制御部を備え、前記第2のウェブ情報のリンク情報を辿ってウェブ情報を収集することを特徴とするウェブ情報収集装置。
IPC (3件):
G06F17/30 ,  G06F13/00 ,  G06N3/08
FI (6件):
G06F17/30 340B ,  G06F17/30 110F ,  G06F17/30 210A ,  G06F17/30 419B ,  G06F13/00 540B ,  G06N3/08 Q
Fターム (5件):
5B075KK33 ,  5B075KK37 ,  5B075NK02 ,  5B075NK44 ,  5B075PR04
引用文献:
審査官引用 (2件)

前のページに戻る