Pat
J-GLOBAL ID:200903093436898715

構造文書化システム,構造文書化プログラム,及び、コンピュータ可読格納媒体

Inventor:
Applicant, Patent owner:
Agent (1): 金井 英幸
Gazette classification:公開公報
Application number (International application number):2001023042
Publication number (International publication number):2001290801
Application date: Jan. 31, 2001
Publication date: Oct. 19, 2001
Summary:
【要約】【課題】 テキストから自動的に構造化文書を生成することができる構造文書化システムを、提供する。【解決手段】DTD+パターンツリー作成部51は、DTD+パターン情報Rが定義する各要素の階層構造をツリーとして表すとともに、ツリーの各ノードに、該当する要素に関して指定された記述パターンを付加する。全体コントロール部52は、このツリーの各ノード毎に、指定された記述パターンに従った検索をパターン検索部53に依頼する。パターン検索部53は、指定された記述パターンに合致した領域を処理対象文書Tから抽出して、全体コントロール部52に回答する。全体コントロール部52は、各要素に対応するものとして回答されたテキストの領域の前後に、その要素に対応したタグを付加することにより、構造化文書Oを出力する。
Claim (excerpt):
テキスト形式で記述された処理対象の電子文書を、所定の文書構造を有する構造化文書に変換するための構造文書化システムであって、前記文書構造を構成する基本単位である各要素間の相互関係を定義するとともに各要素毎にその抽出条件及び識別子を定義した定義情報を読み込む読込部と、前記読込部によって読み込まれた定義情報によって定義された各要素毎の抽出条件を順次参照し、参照した要素の抽出条件に合致した領域を前記処理対象の電子文書から抽出する検索部と、前記検索部によって各要素に関して抽出された領域を、前記定義情報によって定義された各要素間の相互関係に従って組み合わせるとともに、各領域に対して前記定義情報によって定義された識別子を付すことによって前記構造化文書を生成する構造化文書生成部とを備えたことを特徴とする構造文書化システム。
IPC (3):
G06F 17/21 501 ,  G06F 17/21 570 ,  G06F 17/21 590
FI (3):
G06F 17/21 501 T ,  G06F 17/21 570 L ,  G06F 17/21 590 E
Patent cited by the Patent:
Cited by examiner (3)
  • 論理構造化文書の生成方法
    Gazette classification:公開公報   Application number:特願平6-231550   Applicant:日立ソフトウエアエンジニアリング株式会社
  • 構造化文書生成方法および装置
    Gazette classification:公開公報   Application number:特願平7-223017   Applicant:株式会社日立製作所
  • 文書変換装置
    Gazette classification:公開公報   Application number:特願平9-273465   Applicant:株式会社豊田中央研究所

Return to Previous Page