特許
J-GLOBAL ID:200903075208943664

文書認識装置、文書認識方法及び媒体

発明者:
出願人/特許権者:
代理人 (1件): 松田 正道
公報種別:公開公報
出願番号(国際出願番号):特願平9-216873
公開番号(公開出願番号):特開平11-066230
出願日: 1997年08月11日
公開日(公表日): 1999年03月09日
要約:
【要約】【課題】文書の構造を解析し、文字の認識が効率良く出来ないと言う課題。【解決手段】文書領域初期化装置は文書領域オブジェクトを生成し、黒画素外接矩形抽出装置108は連結黒画素成分の外接矩形を抽出し、空白帯抽出装置は領域オブジェクト内の白画素の帯を空白帯として抽出し、文書領域分割装置109は文書領域を識別・分割し、段落領域分割装置110は文字列の集合である段落を分割し、文字列領域分割装置111は文字の集合である文字列を分割し、文字領域分割装置は文字領域オブジェクトの属性を初期化し、文字認識装置105は文字領域の文字認識を行い、閉領域分割装置112は空白帯によって分割できない閉領域を識別・分割し、各分割装置において分割された領域を領域オブジェクトとして生成し隣接あるいは包含関係を属性として持たせることにより領域分割木を生成し、全領域オブジェクトを分割できなくなるまで分割を行う構成。
請求項(抜粋):
文書領域オブジェクトを生成する文書領域初期化手段と、連結黒画素成分の外接矩形を抽出する黒画素外接矩形抽出手段と、領域オブジェクト内の白画素の帯を空白帯として抽出する空白帯抽出手段と、文書領域を識別分割する文書領域分割手段と、文字列の集合である段落を分割する段落領域分割手段と、文字の集合である文字列を分割する文字列領域分割手段と、文字領域オブジェクトの属性を初期化する文字領域分割手段と、前記空白帯によって分割できない閉領域を識別分割する閉領域分割手段とを備え、前記各分割手段において分割された領域を領域オブジェクトとして生成し隣接あるいは包含関係を属性として持たせることにより領域分割木を生成し、全領域オブジェクトを分割できなくなるまで分割した時点で、前記領域分割木が前記文書領域オブジェクトのフォーマット情報を示すことを特徴とする文書認識装置。

前のページに戻る