特許
J-GLOBAL ID:200903093436898715

構造文書化システム,構造文書化プログラム,及び、コンピュータ可読格納媒体

発明者:
出願人/特許権者:
代理人 (1件): 金井 英幸
公報種別:公開公報
出願番号(国際出願番号):特願2001-023042
公開番号(公開出願番号):特開2001-290801
出願日: 2001年01月31日
公開日(公表日): 2001年10月19日
要約:
【要約】【課題】 テキストから自動的に構造化文書を生成することができる構造文書化システムを、提供する。【解決手段】DTD+パターンツリー作成部51は、DTD+パターン情報Rが定義する各要素の階層構造をツリーとして表すとともに、ツリーの各ノードに、該当する要素に関して指定された記述パターンを付加する。全体コントロール部52は、このツリーの各ノード毎に、指定された記述パターンに従った検索をパターン検索部53に依頼する。パターン検索部53は、指定された記述パターンに合致した領域を処理対象文書Tから抽出して、全体コントロール部52に回答する。全体コントロール部52は、各要素に対応するものとして回答されたテキストの領域の前後に、その要素に対応したタグを付加することにより、構造化文書Oを出力する。
請求項(抜粋):
テキスト形式で記述された処理対象の電子文書を、所定の文書構造を有する構造化文書に変換するための構造文書化システムであって、前記文書構造を構成する基本単位である各要素間の相互関係を定義するとともに各要素毎にその抽出条件及び識別子を定義した定義情報を読み込む読込部と、前記読込部によって読み込まれた定義情報によって定義された各要素毎の抽出条件を順次参照し、参照した要素の抽出条件に合致した領域を前記処理対象の電子文書から抽出する検索部と、前記検索部によって各要素に関して抽出された領域を、前記定義情報によって定義された各要素間の相互関係に従って組み合わせるとともに、各領域に対して前記定義情報によって定義された識別子を付すことによって前記構造化文書を生成する構造化文書生成部とを備えたことを特徴とする構造文書化システム。
IPC (3件):
G06F 17/21 501 ,  G06F 17/21 570 ,  G06F 17/21 590
FI (3件):
G06F 17/21 501 T ,  G06F 17/21 570 L ,  G06F 17/21 590 E
引用特許:
審査官引用 (3件)

前のページに戻る