特許
J-GLOBAL ID:200903097024667862

抽出領域のラベリング装置

発明者:
出願人/特許権者:
代理人 (1件): 森田 雄一
公報種別:公開公報
出願番号(国際出願番号):特願平5-249966
公開番号(公開出願番号):特開平6-215184
出願日: 1993年09月10日
公開日(公表日): 1994年08月05日
要約:
【要約】【目的】 文書画像から抽出した段落領域のラベリング精度を向上する。【構成】 最初に、入力された文書画像から段落領域を抽出するとともに(S11)、抽出された領域の属性を判別し(S12)、属性が文字である段落領域についての物理構造を解析・抽出して探索木を作成する(S13)。次に、属性が見出しである段落領域を挟む位置の文書段落領域を検索して対象領域とし(S14)、抽出された各対象領域について、字下げ・改行の有無を検索する(S15)。また、各段落領域が相互に接続する可能性のある近接領域を検索し(S16)、さらに、各段落領域間の接続難易度をそれぞれ計算することにより(S17)、対象の文書段落領域の接続方向を判別する(S18)。得られた接続方向に基づき各文書段落領域の接続を行い、抽出領域をラベリングする(S19)。
請求項(抜粋):
文書画像から抽出された段落領域の属性が文書であるか否かを判別する手段と、属性が文書であると判別された文書段落領域から探索木を作成する手段と、属性が文書でないと判別された非文書段落領域の前後に位置しかつ他の文書段落領域との接続が可能な文書段落領域の組合わせを探索木から検索する手段と、検索された文書段落領域ごとに最終行の行末空白および先頭行の行頭空白を検出する手段と、文書段落領域の先頭および末尾の空白の有無から接続の組合わせごとに文書段落領域間の接続の難易度を算出する手段と、文書段落領域間の接続の組合わせごとの接続難易度を比較して非文書段落領域前後の文書段落領域の接続方向を判別する手段と、判別された接続方向に基づき各文書段落領域のラベリングを行う手段と、を備えたことを特徴とする抽出領域のラベリング装置。
IPC (4件):
G06K 9/36 ,  G06F 15/70 330 ,  G06K 9/20 340 ,  G06K 9/72

前のページに戻る