Pat
J-GLOBAL ID:200903099478085470
文書処理装置及び文書処理方法
Inventor:
Applicant, Patent owner:
Agent (1):
鈴江 武彦 (外6名)
Gazette classification:公開公報
Application number (International application number):2002093092
Publication number (International publication number):2003288334
Application date: Mar. 28, 2002
Publication date: Oct. 10, 2003
Summary:
【要約】【課題】複数ページからなる印刷文書に含まれる図、表などの浮遊要素を適切な位置に設定してXML文書やHTML文書などの構造化文書を生成する。【解決手段】印刷文書に対応した文書画像をレイアウト解析部11にてレイアウト解析して文章領域と図表領域を抽出すると共に文字認識部12にて文章領域中の文字を切り出して認識処理する。文字認識結果とレイアウト解析結果を文書論理要素抽出部13に与えて文章領域から文書論理要素領域を抽出し、読み順設定部14にて文書論理要素領域と図表領域の各領域に対して順序付けを行う。そして、文書構造解析部16にて文書論理要素領域と図表領域の各領域をグループ化して文書構造を抽出し、その文書構造の中で浮遊要素に相当する領域の出現位置を変更して文書出力部17に与えて構造化文書を生成する。
Claim (excerpt):
複数ページからなる印刷文書を処理対象とし、その印刷文書に対応した文書画像から所定形式の構造化文書を生成する文書処理装置であって、上記文書画像をレイアウト解析して文章領域と図表領域に相当する部分画像を抽出するレイアウト解析手段と、このレイアウト解析手段によって得られた文章領域の部分画像から文字を切り出して認識処理する文字認識手段と、この文字認識手段の文字認識結果と上記レイアウト解析手段のレイアウト解析結果に基づいて、上記文章領域から文書見出し、章節見出し、段落、箇条書き、ヘッダ、フッタ、図表キャプション、脚注、数式などの文書論理要素領域を抽出する文書論理要素抽出手段と、この文書論理要素抽出手段によって得られた文書論理要素領域と上記図表領域の各領域に対して順序付けを行う読み順設定手段と、この読み順設定手段によって設定された各領域の順序と領域種別、領域間の配置関係に基づいて上記文書論理要素領域と上記図表領域の各領域をグループ化することにより文書構造を抽出する文書構造抽出手段と、この文書構造抽出手段によって得られた文書構造の中でグループ化された領域あるいは単独の領域の出現位置を変更する文書構造変更手段と、この文書構造変更手段によって変更された文書構造に基づいて所定形式の構造化文書を生成する構造化文書生成手段とを具備したことを特徴とする文書処理装置。
IPC (3):
G06F 17/21 530
, G06F 17/21 501
, G06K 9/20 340
FI (3):
G06F 17/21 530 A
, G06F 17/21 501 Z
, G06K 9/20 340 L
F-Term (6):
5B009QA06
, 5B009QB14
, 5B009TA11
, 5B029CC28
, 5B029CC29
, 5B029EE08
Patent cited by the Patent:
Cited by examiner (2)
-
文書処理装置および文書処理方法
Gazette classification:公開公報
Application number:特願平10-064431
Applicant:株式会社東芝
-
文書画像の論理構造化文書への変換方法および装置
Gazette classification:公開公報
Application number:特願平5-023480
Applicant:国際電信電話株式会社
Return to Previous Page