特許
J-GLOBAL ID:200903063771312494
文書処理装置、文書処理方法および文書処理プログラム、ならびに、記録媒体
発明者:
,
,
,
,
出願人/特許権者:
代理人 (1件):
杉浦 正知
公報種別:公開公報
出願番号(国際出願番号):特願2001-140778
公開番号(公開出願番号):特開2002-334070
出願日: 2001年05月10日
公開日(公表日): 2002年11月22日
要約:
【要約】【課題】 電子メールやHTML形式によるテキストデータから、読み上げに適した部分を適切に切り出す。【解決手段】 入力テキストのテキスト形式を判断し、システムが処理容易な形式に変換する(S10)。また、タグやヘッダ情報等で入力データがHTML形式や電子メール形式であるかも判断される。次に、変換されたデータを、所定の文字パターンの繰り返し等から判断可能な、簡単なレベルでのブロック分割する(S20)。分割されたブロックには、その旨示すタグが付与される。ブロック分割されたデータは、タグや文字パターン等に基づき解析され、構造化される(S30)。ここで、テキスト中の表も解析されセルが切り出される。最後に、構造化されたデータに基づき階層化された木構造データが作成される。そして、木構造データと対になった切り出しテンプレート等を用いて、文が切り出される(S40)。
請求項(抜粋):
電子化された文書データを処理する文書処理装置において、入力されたテキストデータを、該テキストデータの構成に応じて所定にブロックに分割するブロック分割手段と、上記ブロック分割手段により分割された上記ブロックの文書構造を上記テキストデータの構成に基づき解析して文単位に分割し、分割された上記文に上記テキストデータの構成に応じてタグ情報を付加して上記文を構造化する文書構造化手段と、上記文書構造化手段によって上記構造化された上記文に付与された上記タグ情報に基づき上記文の切り出しを制御する文切り出し手段とを有することを特徴とする文書処理装置。
IPC (2件):
G06F 17/21 501
, G06F 17/21 568
FI (2件):
G06F 17/21 501 T
, G06F 17/21 568 Z
Fターム (2件):
引用特許:
引用文献:
審査官引用 (2件)
-
plain2 ユーザガイド
-
SDM for Plain Text to HTML
前のページに戻る