Pat
J-GLOBAL ID:200903059338846983
構造化文書種別判定システム及び構造化文書種別判定方法
Inventor:
,
,
,
,
Applicant, Patent owner:
Agent (1):
田澤 博昭 (外1名)
Gazette classification:公開公報
Application number (International application number):2002111288
Publication number (International publication number):2003308327
Application date: Apr. 12, 2002
Publication date: Oct. 31, 2003
Summary:
【要約】【課題】 Webページ種別判定のためのルール構築に経験知識と試行錯誤の繰り返しとが必要であった。【解決手段】 構造化文書種別判定システムは、予め設けた特徴のリストにある各特徴の値を構造化文書から抽出する特徴値抽出部106と、データマイニングツールを用いて抽出した特徴値から判定ルールを作成する判定ルール作成部111とを備え、判定ルールにしたがい構造化文書の種別を判定した結果と教師データとを比較することにより判定ルールを評価し、チューニングパラメータをデータマイニングツールに繰り返し与えて複数の判定ルールを作成し最適の判定ルールを導出する。
Claim (excerpt):
ネットワークを介して収集された複数の構造化文書を格納する構造化文書データベースと、該構造化文書データベースに格納された構造化文書の種別を教師データとして入力する教師データ入力手段と、上記構造化文書データベースに格納された構造化文書及び上記教師データに基づいて、上記複数の構造化文書の種別を判定するための判定ルールを作成する判定ルール作成手段と、該判定ルール作成手段により作成された上記判定ルールにしたがい、上記ネットワーク上の構造化文書の種別を判定する判定ルール実行手段とを備えた構造化文書種別判定システム。
IPC (2):
G06F 17/30 210
, G06F 17/30 220
FI (2):
G06F 17/30 210 D
, G06F 17/30 220 Z
F-Term (7):
5B075KK07
, 5B075ND20
, 5B075NK02
, 5B075NK44
, 5B075NR02
, 5B075NR12
, 5B075NS10
Patent cited by the Patent: