特許
J-GLOBAL ID:200903044000581090

文書画像処理装置

発明者:
出願人/特許権者:
代理人 (1件): 鈴江 武彦
公報種別:公開公報
出願番号(国際出願番号):特願平6-212951
公開番号(公開出願番号):特開平8-077294
出願日: 1994年09月06日
公開日(公表日): 1996年03月22日
要約:
【要約】【目的】本発明は、帳票などの文書フォーマットを正確に特定でき、効率の良い文字列の抽出、読み取りを可能にした文書画像処理装置を提供する。【構成】画像入力部11より生成される帳票の入力画像に対して、特徴抽出部12より抽出された図形特徴量を特徴構造化部でグループ化し、それぞれの特徴間の関係を抽出・管理する。構造化特徴と、書式構造種別同定部15で予め登録されている処理対象文書の書式構造に関する情報(書式構造モデル)を用いて入力文書の書式構造の種別を推定する。書式構造情報照合部16は、推定された書式構造の種別に対応する書式構造モデルと入力文書の構造化特徴の間で、詳細な対応関係を抽出する。未対応・矛盾対応発見修正部18で対応関係の整合を得た後、文書構造獲得部19でその対応関係に基づき予め登録されている書式構造モデルに関する情報を入力文書にコピーすることで入力文書の構造及び関連知識を獲得する。
請求項(抜粋):
文書より入力画像を生成する画像入力手段と、入力画像の書式構造を認識するために用いられる処理対象文書の書式構造に関する情報(書式構造モデル)を予め登録する書式構造情報登録手段と、前記画像入力手段により生成された入力画像から幾何学的な図形特徴量を抽出する特徴抽出手段と、前記特徴抽出手段より抽出された図形特徴量をグループ化して画像特徴を生成し、それぞれの画像特徴間の関係を抽出・管理する特徴構造化手段と、前記特徴構造化手段で得られた入力画像の画像特徴と、前記書式構造情報登録手段によって予め登録されている処理対象文書の書式構造に関する情報を用いて、入力文書の書式構造の種別の候補を絞りこむ書式構造種別同定手段と、前記書式構造同定手段で候補となったすべての書式構造モデルと前記特徴構造化手段で構造化された入力文書の特徴との間で対応付けを行ない、最も良く対応づいた書式構造モデルと入力文書の組を選択し、その対応関係を獲得する書式構造情報照合手段と、前記書式構造情報照合手段で選択された書式構造文書と入力文書における構造化特徴間の対応付けにおいて、不完全な対応付けおよび矛盾した対応付けを解消することにより整合のとれた前記書式構造モデルと入力文書の構造化された特徴間の対応関係を獲得する未対応・矛盾対応発見修正手段と、前記未対応・矛盾対応発見修正手段によって得られた前記書式構造モデルと入力文書の構造化された特徴間の対応関係に基づいて、予め登録されている当該書式構造モデルに関する情報を入力文書にコピーすることにより入力文書の書式構造と関連情報を獲得する文書構造獲得手段と、を具備することを特徴とする文書画像処理装置。
IPC (3件):
G06K 9/46 ,  G06K 9/20 340 ,  G06K 9/62 610

前のページに戻る