特許
J-GLOBAL ID:201003054991988695

帳票認識装置、方法、データベース作成装置、方法、及びプログラム

発明者:
出願人/特許権者:
代理人 (1件): 大菅 義之
公報種別:公開公報
出願番号(国際出願番号):特願2008-162110
公開番号(公開出願番号):特開2010-003155
出願日: 2008年06月20日
公開日(公表日): 2010年01月07日
要約:
【課題】記載内容を認識するための情報をデザインが異なる個々の帳票毎に登録することなく、幅広く帳票に対応可能とするための技術を提供する。【解決手段】キーワード抽出部18は、キーワードとして、項目名等に対応する見出し文言を抽出する。帳票種別判定部18は、抽出されたキーワードの種類、そのキーワードの抽出位置等に着目して、帳票種別を判定する。論理構造解析(項目候補抽出)部20は、文字列が含まれる領域であるセル単位で表構造を論理的に解析し、セル内に存在する他の認識していない文字列の抽出や、認識されていない見出し文言を推定して復元を行う。それらの操作は、帳票種別の判定結果を反映させて行う。それにより、より高精度な認識を実現させるともに、より幅広い種類の帳票への対応を可能とさせる。【選択図】図1
請求項(抜粋):
帳票上に任意の表構造で存在する文字列の認識を行う帳票認識装置において、 前記帳票の電子化された帳票画像を取得する画像取得手段と、 前記画像取得手段が取得した前記帳票画像上に存在する文字列を認識する文字列認識手段と、 前記文字列認識手段が認識した文字列のなかから予め定めた文字列である見出し文言を抽出する文字列抽出手段と、 前記文字列抽出手段が抽出した見出し文言、及び前記見出し文言の前記帳票画像上の配置に基づいて、該帳票画像上に存在する表構造を判定する表構造判定手段と、 前記表構造判定手段による前記表構造の判定結果を用いて、前記見出し文言と該見出し文言以外に前記文字列認識手段が認識している文字列との間の対応関係を特定する対応関係特定手段と、 を具備することを特徴とする帳票認識装置。
IPC (1件):
G06K 9/20
FI (2件):
G06K9/20 340C ,  G06K9/20 340K
Fターム (6件):
5B029AA01 ,  5B029BB02 ,  5B029CC26 ,  5B029CC27 ,  5B029CC28 ,  5B029CC29
引用特許:
出願人引用 (13件)
全件表示
審査官引用 (5件)
  • 文書画像処理装置
    公報種別:公開公報   出願番号:特願平4-238246   出願人:株式会社東芝
  • 特開昭61-059568
  • 文字認識方法
    公報種別:公開公報   出願番号:特願平9-330182   出願人:富士通株式会社
全件表示

前のページに戻る