特許
J-GLOBAL ID:200903008774017778

文書レイアウト解析装置及び文書フォ-マット識別装置

発明者:
出願人/特許権者:
代理人 (1件): 鈴木 正剛
公報種別:公開公報
出願番号(国際出願番号):特願平6-050866
公開番号(公開出願番号):特開平7-168910
出願日: 1994年03月22日
公開日(公表日): 1995年07月04日
要約:
【要約】【目的】 文書画像データの項目領域を識別する知識ベース型の文書レイアウト解析装置において、知識ベースを改良して識別精度を向上させる。【構成】 参照用文章の基準項目領域を参照ベクトルに変換してこれを参照ベクトル格納部5に格納しておく。識別対象となる未知文書は、画像入力部1で画像データに変換され、基本矩形領域抽出部2で複数の矩形領域に分割され、各矩形領域毎に特徴ベクトル化される。項目領域識別部6ではこれら特徴ベクトルに最も適応する参照ベクトルを各々参照ベクトル格納部5から抽出し、これを各矩形領域に対応付ける。これにより未知文書の項目領域の識別が容易となる。
請求項(抜粋):
文章の記述内容表示や頁番号等の複数種類の項目領域を有する文書を画像データに変換して取り込み、この画像データと予め保持された前記文書のレイアウト知識とを参照して当該文書の前記項目領域の識別を行う文書レイアウト解析装置において、前記取り込んだ画像データから複数の文字領域を検出して各文字領域の画像特徴をベクトル化するベクトル生成手段と、予めレイアウトが判明している参照用文書の基準項目領域の画像特徴を前記ベクトル生成手段で参照ベクトルに変換し、これら参照ベクトルを前記レイアウト知識として格納する参照ベクトル格納手段と、識別対象となる未知文書中の複数の文字領域の画像特徴を各々前記ベクトル生成手段で特徴ベクトルに変換し、個々の特徴ベクトルに最も適応する前記参照ベクトルを各々当該文字領域に対応付ける項目領域識別手段と、を有することを特徴とする文書レイアウト解析装置。
IPC (4件):
G06K 9/20 340 ,  G06K 9/20 ,  G06F 9/44 560 ,  G06F 17/21

前のページに戻る