特許
J-GLOBAL ID:200903041560804982
ファクトデータの抽出装置
発明者:
,
,
,
出願人/特許権者:
代理人 (1件):
國分 孝悦
公報種別:公開公報
出願番号(国際出願番号):特願2002-134092
公開番号(公開出願番号):特開2003-330947
出願日: 2002年05月09日
公開日(公表日): 2003年11月21日
要約:
【要約】【課題】 多数の技術文書から多種類のファクトデータを自動的に抽出し、データベースを構築できるようにする。【解決手段】 技術文書のテキスト11の入力およびその記憶手段16、専門用語とそのカテゴリーデータ10の入力と記憶手段5、技術文書テキストを専門用語を用いてタグ付けする手段1、タグ付けされた技術文書テキストからファクトデータの抽出パターンを作成する手段2、ファクトデータの抽出対象となる技術文書テキストと抽出パターンからマッチング操作によりファクトデータを抽出する手段3を備えるファクトデータの抽出装置。
請求項(抜粋):
技術文書中に含まれるファクトデータを技術文書テキストから抽出するファクトデータの抽出装置であって、予め用意した前記技術文書の該当技術分野の専門用語辞書ファイルを用いて、学習用テキストファイルの各文を抽出項目に関してタグ付けし、タグ付きファイルを作成するタグ付け手段と、前記タグ付きファイルから選択されたタグ付き文と、指定された抽出情報とから抽出したいファクトデータを抽出するためのテンプレートを作成する抽出パターンマッチテンプレート作成手段と、前記ファクトデータの抽出対象となるテキストを入力し、前記作成したテンプレートを用いてマッチングを行い、テンプレートの抽出項目に対応する入力文の文字列を解候補とし、さらに解候補の制約判定を行い、ファクトデータを抽出するファクト抽出手段と、前記抽出したファクトデータをデータベースに格納するデータベース格納手段とを含むことを特徴とするファクトデータの抽出装置。
IPC (4件):
G06F 17/30 220
, G06F 17/30 140
, G06F 17/30 170
, G06F 17/21 501
FI (4件):
G06F 17/30 220 Z
, G06F 17/30 140
, G06F 17/30 170 A
, G06F 17/21 501 T
Fターム (12件):
5B009NA05
, 5B009VA02
, 5B009VA09
, 5B009VC01
, 5B075ND03
, 5B075ND23
, 5B075NK02
, 5B075NK10
, 5B075NK32
, 5B075NS10
, 5B075UU06
, 5B075UU26
前のページに戻る