特許
J-GLOBAL ID:200903035888932872
文書画像レイアウト解析プログラム、文書画像レイアウト解析装置、および文書画像レイアウト解析方法
発明者:
,
,
出願人/特許権者:
代理人 (1件):
服部 毅巖
公報種別:公開公報
出願番号(国際出願番号):特願2005-061529
公開番号(公開出願番号):特開2006-244309
出願日: 2005年03月04日
公開日(公表日): 2006年09月14日
要約:
【課題】 適切なテキストブロックの組み合わせとして、単一の抽出条件では抽出が困難な組み合わせのテキストブロックを抽出できるようにする。【解決手段】 テキストブロック抽出手段2により、抽出条件記憶手段1に記憶されたテキストブロック抽出条件それぞれに従って、文書画像4からテキストブロックが抽出される。そして、テキストブロック統合手段3により、テキストブロック抽出手段2で抽出された複数のテキストブロック抽出結果5a,5b,・・・それぞれに含まれるテキストブロックの文字認識が行われ、文字認識結果に基づいてテキストブロックが示す範囲の正確性が判定され、正確性が高いテキストブロックが選択され、テキストブロック統合結果6として出力される。【選択図】 図1
請求項(抜粋):
文書画像に含まれるテキストのレイアウトを解析して、文字認識の処理対象とする範囲を示すテキストブロックを抽出する文書画像レイアウト解析プログラムにおいて、
コンピュータを、
テキストブロックを抽出するための条件を定義した複数の抽出条件を記憶する抽出条件記憶手段、
前記抽出条件記憶手段に記憶された前記テキストブロック抽出条件それぞれに従って、前記文書画像からテキストブロックを抽出するテキストブロック抽出手段、
前記テキストブロック抽出手段で抽出された複数のテキストブロック抽出結果それぞれに含まれるテキストブロックの文字認識を行い、文字認識結果に基づいてテキストブロックが示す範囲の正確性を判定し、正確性が高いテキストブロックを選択してテキストブロック統合結果として出力するテキストブロック統合手段、
として機能させることを特徴とする文書画像レイアウト解析プログラム。
IPC (3件):
G06K 9/20
, G06F 17/21
, G06T 7/40
FI (3件):
G06K9/20 340C
, G06F17/21 530A
, G06T7/40 100A
Fターム (11件):
5B009NA01
, 5B029AA01
, 5B029BB02
, 5B029CC26
, 5L096BA17
, 5L096EA05
, 5L096EA35
, 5L096FA18
, 5L096FA44
, 5L096GA34
, 5L096JA16
引用特許:
出願人引用 (2件)
審査官引用 (5件)
-
文字認識方法および記録媒体
公報種別:公開公報
出願番号:特願2000-285502
出願人:株式会社リコー
-
論理構造抽出装置
公報種別:公開公報
出願番号:特願平10-274985
出願人:富士ゼロックス株式会社
-
領域分割装置
公報種別:公開公報
出願番号:特願平7-274037
出願人:株式会社リコー
全件表示
前のページに戻る