文書認識システム

発明者： ,
出願人/特許権者：
公報種別：公開公報
出願番号（国際出願番号）：特願平4-220822
公開番号（公開出願番号）：特開平6-052353
出願日： 1992年07月28日
公開日（公表日）： 1994年02月25日
要約：

【要約】【目的】文章領域と図領域のどちらか一方もしくはその双方を有する文書の画像デ-タに対し、その画像からまとまったブロックを自動で抽出する。【構成】ブロックを抽出する際に、画像中の黒画素連の外接矩形について互いに重複する部分を持つものを統合した基本矩形を用い、それら基本矩形間の距離および基本矩形の大きさを利用する機能を備えている。【効果】黒画素連の外接矩形について互いに重複する部分を持つものを統合した基本矩形を用い、それら基本矩形間の距離および基本矩形の大きさを利用した処理を行うことによってブロックを自動で抽出することができる。

請求項（抜粋）：

文章領域と図領域のどちらか一方もしくはその両方の属性を有する領域を持つ文書の画像デ-タを入力として、該入力した画像データからまとまった文章領域や図の領域を表現するブロックを抽出し、あるブロックが文章領域と図領域とのどちらの属性を持つものであるかを判定もしくは両者を区別し、文章領域の内容に対応する文字列デ-タおよび図領域の内容に対応する画像デ-タを出力する文書認識システムにおいて、前記画像データ中の黒画素連の外接矩形について互いに重複する部分を持つものを統合した基本矩形を用い、該基本矩形の間の距離がある値以下である基本矩形同士を統合してブロック候補を生成する統合処理と、ブロック候補からある限度よりも大きな基本矩形を独立させて、該基本矩形をブロック候補に変更する分離処理との二つの処理を、前記画像データ中から全てのブロックが抽出されてしまうまで繰り返す反復統合分離処理を行う機能を備えていることを特徴とする文書認識システム。

前のページに戻る