特許
J-GLOBAL ID:200903033080469536

情報抽出規則作成システム、情報抽出規則作成方法及び情報抽出規則作成プログラム

発明者:
出願人/特許権者:
代理人 (2件): 志賀 正武 ,  村山 靖彦
公報種別:公開公報
出願番号(国際出願番号):特願2003-005806
公開番号(公開出願番号):特開2004-220251
出願日: 2003年01月14日
公開日(公表日): 2004年08月05日
要約:
【課題】WWW上で提供される情報の中から本文部分のみを特定することが可能な抽出規則を作成するシステムを提供する。【解決手段】予め収集されたWebページデータから本文部分を抽出する本文抽出手段と、Webページデータを解析して、本文抽出手段によって抽出された本文部分が現れる箇所をデータ構造で表現した抽出規則を作成する抽出規則作成手段と、抽出規則作成手段によって作成した同一の抽出規則が適用される複数のURLをグループ化し、このグループ化されたURLと抽出規則とを関連付ける適用抽出規則作成手段とを備える。【選択図】 図1
請求項(抜粋):
予め収集されたWebページデータから本文部分を抽出する本文抽出手段と、 前記Webページデータを解析して、前記本文抽出手段によって抽出された本文部分が現れる箇所をデータ構造で表現した抽出規則を作成する抽出規則作成手段と、 前記抽出規則作成手段によって作成した同一の抽出規則が適用される複数のURLをグループ化し、このグループ化されたURLと前記抽出規則とを関連付ける適用抽出規則作成手段と、 を備えたことを特徴とする情報抽出規則作成システム。
IPC (2件):
G06F17/30 ,  G06F12/00
FI (4件):
G06F17/30 220Z ,  G06F17/30 140 ,  G06F17/30 210D ,  G06F12/00 513J
Fターム (4件):
5B075NR12 ,  5B075NS10 ,  5B082GA08 ,  5B082GC04
引用特許:
審査官引用 (1件)
引用文献:
前のページに戻る