特許
J-GLOBAL ID:200903098983517892

情報抽出方法および情報抽出装置

発明者:
出願人/特許権者:
代理人 (1件): 田澤 博昭 (外1名)
公報種別:公開公報
出願番号(国際出願番号):特願2001-110293
公開番号(公開出願番号):特開2002-312379
出願日: 2001年04月09日
公開日(公表日): 2002年10月25日
要約:
【要約】【課題】 インターネット上の多種多様な文書から情報を抽出する場合、予め多数の類型を用意しなければならず、システム管理者に多大な労力を強い、類型に当てはまらない文書については、不要な情報まで抽出する問題があった。【解決手段】 ネットワーク上の文書を収集する文書収集ステップと、収集した文書をカテゴリーに分類する文書分類ステップと、カテゴリーに分類した文書とカテゴリーを示す情報を登録するステップと、分類した文書に記載されている情報を抽出する際に、抽出対象の言語表現を特定する抽出ルールを学習可能とした情報抽出ステップと、抽出ルールに基づいて抽出された文書を抽出情報データベースに登録するステップとからなる。
請求項(抜粋):
インターネット等のネットワークから収集した文書を分類すると共に前記文書から情報を抽出して登録する情報抽出方法において、前記ネットワークで公開されている文書を収集する文書収集ステップと、収集した文書をカテゴリーに分類し、カテゴリーに分類した文書と前記カテゴリーを示す情報とをカテゴリーデータベースに登録する文書分類ステップと、前記カテゴリーに分類した文書に記載されている情報を抽出ルールに基づいて抽出し、抽出対象の言語表現を特定するための前記抽出ルールを学習して生成し、抽出された文書を抽出情報データベースに登録する情報抽出ステップとからなることを特徴とする情報抽出方法。
IPC (4件):
G06F 17/30 210 ,  G06F 17/30 110 ,  G06F 17/30 230 ,  G06F 12/00 546
FI (5件):
G06F 17/30 210 D ,  G06F 17/30 110 F ,  G06F 17/30 210 A ,  G06F 17/30 230 Z ,  G06F 12/00 546 T
Fターム (8件):
5B075ND03 ,  5B075NK31 ,  5B075NR12 ,  5B075PQ02 ,  5B075PQ46 ,  5B075QM05 ,  5B075QP01 ,  5B082GA06

前のページに戻る