Pat
J-GLOBAL ID:200903063771312494

文書処理装置、文書処理方法および文書処理プログラム、ならびに、記録媒体

Inventor:
Applicant, Patent owner:
Agent (1): 杉浦 正知
Gazette classification:公開公報
Application number (International application number):2001140778
Publication number (International publication number):2002334070
Application date: May. 10, 2001
Publication date: Nov. 22, 2002
Summary:
【要約】【課題】 電子メールやHTML形式によるテキストデータから、読み上げに適した部分を適切に切り出す。【解決手段】 入力テキストのテキスト形式を判断し、システムが処理容易な形式に変換する(S10)。また、タグやヘッダ情報等で入力データがHTML形式や電子メール形式であるかも判断される。次に、変換されたデータを、所定の文字パターンの繰り返し等から判断可能な、簡単なレベルでのブロック分割する(S20)。分割されたブロックには、その旨示すタグが付与される。ブロック分割されたデータは、タグや文字パターン等に基づき解析され、構造化される(S30)。ここで、テキスト中の表も解析されセルが切り出される。最後に、構造化されたデータに基づき階層化された木構造データが作成される。そして、木構造データと対になった切り出しテンプレート等を用いて、文が切り出される(S40)。
Claim (excerpt):
電子化された文書データを処理する文書処理装置において、入力されたテキストデータを、該テキストデータの構成に応じて所定にブロックに分割するブロック分割手段と、上記ブロック分割手段により分割された上記ブロックの文書構造を上記テキストデータの構成に基づき解析して文単位に分割し、分割された上記文に上記テキストデータの構成に応じてタグ情報を付加して上記文を構造化する文書構造化手段と、上記文書構造化手段によって上記構造化された上記文に付与された上記タグ情報に基づき上記文の切り出しを制御する文切り出し手段とを有することを特徴とする文書処理装置。
IPC (2):
G06F 17/21 501 ,  G06F 17/21 568
FI (2):
G06F 17/21 501 T ,  G06F 17/21 568 Z
F-Term (2):
5B009NA05 ,  5B009QA06
Patent cited by the Patent:
Cited by examiner (3)
Article cited by the Patent:
Cited by examiner (2)
  • plain2 ユーザガイド
  • SDM for Plain Text to HTML

Return to Previous Page