Pat
J-GLOBAL ID:200903045174422345

文書画像認識装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Inventor:
Applicant, Patent owner:
Agent (1): 酒井 宏明
Gazette classification:公開公報
Application number (International application number):1997220426
Publication number (International publication number):1999066196
Application date: Aug. 15, 1997
Publication date: Mar. 09, 1999
Summary:
【要約】【課題】 紙文書の再現を優先した文書や紙文書の内容を重視した文書等、利用目的に応じた様々な形態の文書を生成すること。【解決手段】 紙文書を光学的に読み取ることによって生成した文書画像を入力する文書画像入力部200と、入力した文書画像に対してノイズ除去およびスキュー補正処理を行う前処理部201と、文書画像から文字列を含む文字領域および/または図,表,写真等の画像を含む画像領域の認識・抽出処理,抽出した文字領域の文字列についての文字認識処理、および文書画像のレイアウトを解析し、レイアウト情報の抽出処理を行う情報抽出部204と、文字認識結果およびレイアウト情報抽出結果に基づいて、PostScript文書およびHTML文書を生成する文書生成部210と、生成したPostScript文書およびHTML文書をそれぞれ格納するデータベース部213と、を備えている。
Claim (excerpt):
紙文書を光学的に読み取ることによって生成した文書画像を入力する入力手段と、前記入力手段を介して入力した文書画像から文字列を含む文字領域および/または図,表,写真等の画像を含む画像領域を認識して抽出する領域抽出手段と、前記領域認識手段で抽出した文字領域の文字列について文字認識処理を行う文字認識手段と、前記領域抽出手段の抽出結果に基づいて、前記文書画像のレイアウトを解析し、レイアウト情報を抽出するレイアウト情報抽出手段と、前記文字認識手段による文字認識結果およびレイアウト情報抽出手段によるレイアウト情報抽出結果に基づいて、ページ記述言語を用いた第1の文書を生成する第1の文書生成手段と、前記文字認識手段による文字認識結果およびレイアウト情報抽出手段によるレイアウト情報抽出結果に基づいて、構造化記述言語を用いた第2の文書を生成する第2の文書生成手段と、前記第1および第2の文書生成手段で生成した第1および第2の文書をそれぞれ格納する格納手段と、を備えたことを特徴とする文書画像認識装置。
IPC (6):
G06F 19/00 ,  G06F 17/21 ,  G06T 7/00 ,  G06K 9/20 340 ,  H04N 1/21 ,  H04N 1/40
FI (6):
G06F 15/22 G ,  G06K 9/20 340 C ,  H04N 1/21 ,  G06F 15/20 538 A ,  G06F 15/70 330 Q ,  H04N 1/40 F
Patent cited by the Patent:
Cited by examiner (2)

Return to Previous Page