Pat
J-GLOBAL ID:200903029822945264

文書処理装置並びにその方法及びプログラム

Inventor:
Applicant, Patent owner:
Agent (1): 伊藤 進
Gazette classification:公開公報
Application number (International application number):2002339999
Publication number (International publication number):2004178010
Application date: Nov. 22, 2002
Publication date: Jun. 24, 2004
Summary:
【課題】印刷文書に記載されている情報を論理構造と共に抽出して文字認識する。【解決手段】複数ページの印刷文書の文書画像からレイアウト要素を抽出すると共に、文書論理要素を抽出する。抽出した文書論理要素を規定する文書論理要素特徴のうち安定した特徴のみを用いて、文書論理要素毎のモデルを生成する。入力文書画像のレイアウト要素や論理要素に対して生成した文書論理要素モデルを適用して、各文書固有の論理要素を高精度に抽出する。文書論理要素をモデル化して入力要素との照合に用いており、モデルの生成に用いた文書画像と同一種別の文書画像については、論理要素の抽出が略可能となる。これにより、印刷文書から効率良くXML/HTML等のタグ付き文書を生成することができる。【選択図】 図1
Claim (excerpt):
文書画像中の少なくとも文章領域を含む部分領域についてのレイアウト要素及び文書論理要素を、同一種別の1つ以上の文書画像について収集する収集手段と、 前記収集手段が収集した同一種別の1つ以上の文書画像についてのレイアウト要素及び文書論理要素に基づいて文書論理要素毎の要素モデルを生成するモデル生成手段とを具備したことを特徴とする文書処理装置。
IPC (2):
G06F17/21 ,  G06K9/20
FI (3):
G06F17/21 501Z ,  G06F17/21 530A ,  G06K9/20 340L
F-Term (6):
5B009NA01 ,  5B009NA05 ,  5B009QA11 ,  5B029AA01 ,  5B029BB02 ,  5B029CC29

Return to Previous Page