特許
J-GLOBAL ID:200903052001129649

サイト運営者情報抽出方法、装置、サイト運営者情報抽出プログラム、および該プログラムを記録した記録媒体

発明者:
出願人/特許権者:
代理人 (3件): 志賀 富士弥 ,  橋本 剛 ,  鵜澤 英久
公報種別:公開公報
出願番号(国際出願番号):特願2002-199458
公開番号(公開出願番号):特開2004-046312
出願日: 2002年07月09日
公開日(公表日): 2004年02月12日
要約:
【課題】Webサイトからサイト運営者の住所、電話番号、電子メールアドレスの何れか、又は二つ以上の連絡先情報の候補を効率的に抽出、収集する。【解決手段】サイト情報生成装置1は、予めWebページを収集しておき、Webページ集合をサイトの集合にまとめ直し、各サイト毎にトップページを頂点とするサイト内の内部構造である木構造を生成し、この木構造をサイト情報データベース(DB)2に格納する。運営者連絡先候補情報収集装置3は、サイト情報DB2に格納された各サイト毎の木構造を元に、トップページのみ、又はトップページ及び一段下位の全ページ、又はトップページ及び一段下位のページのうち予め作成されたフィルタリング条件を満たすページを用いて、各サイトの運営者の住所、電話番号、電予メールアドレスのいずれか、或いは二つ以上の連絡先情報の候補を収集してサイト運営者連絡先候補情報DB4に格納する。【選択図】 図1
請求項(抜粋):
サイト運営者に関する情報の候補を抽出し収集する、サイト運営者情報抽出方法であって、 予めWebページを収集しておき、Webページ集合をサイトの集合にまとめなおし、各サイト毎にトップページを頂点とするサイト内の内部構造である木構造を生成し、その木構造をサイト情報データベースに格納するサイト情報生成ステップと、 サイト情報データベースに格納された各サイト毎の木構造をもとに、各サイトの運営者に関する情報の候補を抽出、収集し、サイト運営者情報データベースに格納する運営者情報収集ステップと、を有する ことを特徴とするサイト運営者情報抽出方法。
IPC (1件):
G06F17/30
FI (4件):
G06F17/30 230Z ,  G06F17/30 110F ,  G06F17/30 220Z ,  G06F17/30 419A
Fターム (4件):
5B075KK33 ,  5B075KK37 ,  5B075ND35 ,  5B075NS10

前のページに戻る