特許
J-GLOBAL ID:200903087422335939
文書検索・閲覧手法及び文書検索・閲覧装置
発明者:
,
,
出願人/特許権者:
代理人 (1件):
作田 康夫
公報種別:公開公報
出願番号(国際出願番号):特願2003-368304
公開番号(公開出願番号):特開2005-135041
出願日: 2003年10月29日
公開日(公表日): 2005年05月26日
要約:
【課題】 紙文書及び文書画像に対する検索・閲覧手段として、文書構造解析技術及び文字認識技術を応用して文書画像群を検索・閲覧する方法を提案する。【解決手段】 OCRと文書処理装置を分離し、OCRの出力形態として、文字行抽出及び文字切出及び文字識別の多重仮説を保持するデータ(読取仮説データ)と、文書画像の罫線情報や枠情報や文字行情報や閲覧属性情報等を持つ文書構造データを採用し、OCR付加データを元に印刷活字及び手書文字列からの重要キーワード抽出及び文書検索を行い、更に文書構造データを利用して閲覧者の意図する文書表示を機能を構成することで、高度な機能を持つ文書画像検索・閲覧システムを提供する。【選択図】 図2
請求項(抜粋):
紙文書を光学的に読み取って生成される文書画像データに文字認識処理を行うOCR装置であって、
文書構造解析に用いられる文書構造辞書および文字識別に用いられる文字識別辞書を記憶する記憶装置と、
上記文書画像データを入力する画像入力部と、
演算部とを有し、
上記演算部は、上記文書構造辞書を用いて上記文書画像データの枠構造解析および読取対象枠の特定を行って文書構造データを生成し、上記文字識別辞書を用いて上記特定された読取対象枠について文字認識処理を行って読取結果テキストまたは読取仮説データを生成し、上記文書画像データと対応付けて、上記文書構造データおよび上記読取仮説データの少なくともいずれかを含むOCR付加データを出力し、
該読取仮説データは文字認識処理の過程で生成される、少なくとも文字切出パタン候補および該文字切出パタンの識別結果を含むことを特徴とするOCR装置。
IPC (2件):
FI (3件):
G06K9/72 E
, G06F17/30 170B
, G06F17/30 310C
Fターム (19件):
5B064AA01
, 5B064AA07
, 5B064AB02
, 5B064AB03
, 5B064BA01
, 5B064CA08
, 5B064DC07
, 5B064DC14
, 5B064EA08
, 5B064EA19
, 5B064EA27
, 5B064FA02
, 5B064FA13
, 5B075ND07
, 5B075NK32
, 5B075PP04
, 5B075PQ22
, 5B075PQ23
, 5B075UU01
引用特許:
出願人引用 (8件)
全件表示
審査官引用 (6件)
全件表示
前のページに戻る