特許
J-GLOBAL ID:201203062941402190
文書画像データベースの登録方法および検索方法
発明者:
,
,
出願人/特許権者:
代理人 (5件):
野河 信太郎
, 秋山 雅則
, 甲斐 伸二
, 金子 裕輔
, 稲本 潔
公報種別:公開公報
出願番号(国際出願番号):特願2011-045513
公開番号(公開出願番号):特開2012-181765
出願日: 2011年03月02日
公開日(公表日): 2012年09月20日
要約:
【課題】文書画像データベースの大規模化に伴って顕在化するLocally Likely Arrangement Hashing (LLAH) のメモリ効率の問題、および、特徴量の識別性の問題を解決する改善手法を提供する。LLAH は高いロバスト性を実現するために、必要メモリ量が多く、また、大規模化に対処するには、特徴量の識別性・安定性が十分でないという側面がある。【解決手段】以下の3 点の改良を施す。第1は、ハッシュに保存する特徴点をサンプリングすることによる必要メモリ量の削減である。第2は、特徴量の次元数を増加させることによる識別性向上である。第3は、特徴量のうち冗長性のある次元を削除することによる安定性向上である。【選択図】図3
請求項(抜粋):
コンピュータが、
文書画像データベースに登録すべき文書画像から、その文書画像の局所的特徴を表す特徴点を抽出する特徴点抽出ステップと、
幾何学的変換に対する不変量を用いた各特徴点の特徴量であって、各特徴点とその近傍n 個(n は自然数)の特徴点とで定まる複数の幾何学的要素に対して所定の演算によりそれぞれの特性値を求め、それらの特性値を組み合わせてなる複数の不変量を計算し、算出された不変量を各次元とするベクトルを前記特徴量とする特徴量計算ステップと、
前記文書画像から抽出された各特徴点について、(1)前記文書画像の参照に用いる参照子、(2)その特徴点を他の特徴点と区別する識別子および(3)その特徴点の特徴量の前記(1)〜(3)を関連付けてなるデータ組を生成し、前記データ組を前記文書画像と共に前記文書画像データベースに登録する登録ステップとを実行し、
前記特徴点抽出ステップは、文書を構成する文書を構成する線の連結成分を決定し、所定面積より小さい連結成分の重心を特徴点として抽出し、抽出された特徴点の数が閾値に満たないとき、各特徴点の近傍にある連結成分の重心をさらに特徴点として抽出して閾値以上の特徴点が得られるように抽出し、
前記特徴量計算ステップは、一の不変量に用いた幾何学的要素と重複しない幾何学的要素を他の不変量に用いて各不変量を計算することを特徴とする文書画像データベースの登録方法。
IPC (3件):
G06F 17/30
, G06T 7/00
, G06T 1/00
FI (5件):
G06F17/30 230Z
, G06F17/30 320Z
, G06F17/30 170B
, G06T7/00 300F
, G06T1/00 200E
Fターム (22件):
5B050BA10
, 5B050BA16
, 5B050EA04
, 5B050EA18
, 5B050GA08
, 5B075ND07
, 5B075ND22
, 5B075NK07
, 5B075NK13
, 5B075NK22
, 5B075NK39
, 5B075NK50
, 5B075UU06
, 5L096CA02
, 5L096DA01
, 5L096FA71
, 5L096FA81
, 5L096GA19
, 5L096HA08
, 5L096JA11
, 5L096JA18
, 5L096KA13
引用特許: