特許
J-GLOBAL ID:200903059338846983
構造化文書種別判定システム及び構造化文書種別判定方法
発明者:
,
,
,
,
出願人/特許権者:
代理人 (1件):
田澤 博昭 (外1名)
公報種別:公開公報
出願番号(国際出願番号):特願2002-111288
公開番号(公開出願番号):特開2003-308327
出願日: 2002年04月12日
公開日(公表日): 2003年10月31日
要約:
【要約】【課題】 Webページ種別判定のためのルール構築に経験知識と試行錯誤の繰り返しとが必要であった。【解決手段】 構造化文書種別判定システムは、予め設けた特徴のリストにある各特徴の値を構造化文書から抽出する特徴値抽出部106と、データマイニングツールを用いて抽出した特徴値から判定ルールを作成する判定ルール作成部111とを備え、判定ルールにしたがい構造化文書の種別を判定した結果と教師データとを比較することにより判定ルールを評価し、チューニングパラメータをデータマイニングツールに繰り返し与えて複数の判定ルールを作成し最適の判定ルールを導出する。
請求項(抜粋):
ネットワークを介して収集された複数の構造化文書を格納する構造化文書データベースと、該構造化文書データベースに格納された構造化文書の種別を教師データとして入力する教師データ入力手段と、上記構造化文書データベースに格納された構造化文書及び上記教師データに基づいて、上記複数の構造化文書の種別を判定するための判定ルールを作成する判定ルール作成手段と、該判定ルール作成手段により作成された上記判定ルールにしたがい、上記ネットワーク上の構造化文書の種別を判定する判定ルール実行手段とを備えた構造化文書種別判定システム。
IPC (2件):
G06F 17/30 210
, G06F 17/30 220
FI (2件):
G06F 17/30 210 D
, G06F 17/30 220 Z
Fターム (7件):
5B075KK07
, 5B075ND20
, 5B075NK02
, 5B075NK44
, 5B075NR02
, 5B075NR12
, 5B075NS10
引用特許: