Pat
J-GLOBAL ID:200903033080469536

情報抽出規則作成システム、情報抽出規則作成方法及び情報抽出規則作成プログラム

Inventor:
Applicant, Patent owner:
Agent (2): 志賀 正武 ,  村山 靖彦
Gazette classification:公開公報
Application number (International application number):2003005806
Publication number (International publication number):2004220251
Application date: Jan. 14, 2003
Publication date: Aug. 05, 2004
Summary:
【課題】WWW上で提供される情報の中から本文部分のみを特定することが可能な抽出規則を作成するシステムを提供する。【解決手段】予め収集されたWebページデータから本文部分を抽出する本文抽出手段と、Webページデータを解析して、本文抽出手段によって抽出された本文部分が現れる箇所をデータ構造で表現した抽出規則を作成する抽出規則作成手段と、抽出規則作成手段によって作成した同一の抽出規則が適用される複数のURLをグループ化し、このグループ化されたURLと抽出規則とを関連付ける適用抽出規則作成手段とを備える。【選択図】 図1
Claim (excerpt):
予め収集されたWebページデータから本文部分を抽出する本文抽出手段と、 前記Webページデータを解析して、前記本文抽出手段によって抽出された本文部分が現れる箇所をデータ構造で表現した抽出規則を作成する抽出規則作成手段と、 前記抽出規則作成手段によって作成した同一の抽出規則が適用される複数のURLをグループ化し、このグループ化されたURLと前記抽出規則とを関連付ける適用抽出規則作成手段と、 を備えたことを特徴とする情報抽出規則作成システム。
IPC (2):
G06F17/30 ,  G06F12/00
FI (4):
G06F17/30 220Z ,  G06F17/30 140 ,  G06F17/30 210D ,  G06F12/00 513J
F-Term (4):
5B075NR12 ,  5B075NS10 ,  5B082GA08 ,  5B082GC04
Patent cited by the Patent:
Cited by examiner (1)
Article cited by the Patent:
Return to Previous Page