特許
J-GLOBAL ID:200903040636928752

文書画像からのタイトル領域抽出装置およびタイトル領域抽出方法,並びに文書検索方法

発明者:
出願人/特許権者:
公報種別:公開公報
出願番号(国際出願番号):特願平10-328806
公開番号(公開出願番号):特開2000-148788
出願日: 1998年11月05日
公開日(公表日): 2000年05月30日
要約:
【要約】【課題】 特定の文書形式に依存せずにタイトル固有の特徴をポイントとして用いることにより,ポイント数の多い文字列領域をタイトルとして自動抽出し,タイトル抽出の的確性および文書検索時の利便性を向上させること。【解決手段】 領域識別部101で切り出された文字列矩形に対し,該文字列矩形内の文字認識を行う文字認識部102と,上記文字列矩形に対し,該文字列矩形内の各文字毎のフォント識別を行うフォント識別部103と,文字認識部102の認識結果で得られる文字コードに基づいて自然言語的タイトルらしさを解析する自然言語解析部104と,上記文字列矩形に対し,センタリング・下線・文字矩形の大きさ等を用いてタイトルらしさのポイント付けを行うポイント付部105と,を備えた。
請求項(抜粋):
画像入力装置から入力された文書画像から文字列領域を矩形で切り出す領域識別手段を有し,前記文字列領域の属性に基づいてタイトルらしさのポイント計算を実行し,タイトルを抽出する文書画像からのタイトル領域抽出装置において,前記領域識別手段で切り出された文字列矩形に対し,該文字列矩形内の文字認識を行う文字認識手段と,前記領域識別手段で切り出された文字列矩形に対し,該文字列矩形内の各文字毎のフォント識別を行うフォント識別手段と,前記文字認識手段の認識結果で得られる文字コードに基づいて自然言語的タイトルらしさを解析する自然言語解析手段と,前記領域識別手段で切り出された文字列矩形に対し,センタリング・下線・文字矩形の大きさ等を用いてタイトルらしさのポイント付けを行うポイント付手段と,を備えたことを特徴とする文書画像からのタイトル領域抽出装置。
IPC (3件):
G06F 17/30 ,  G06F 17/27 ,  G06K 9/20 340
FI (4件):
G06F 15/40 370 B ,  G06K 9/20 340 ,  G06F 15/20 550 F ,  G06F 15/401 310 A
Fターム (10件):
5B009QA12 ,  5B029AA01 ,  5B029BB02 ,  5B029CC27 ,  5B075ND03 ,  5B075NK02 ,  5B075NK04 ,  5B075NK32 ,  5B075NK39 ,  5B075UU06
引用特許:
審査官引用 (2件)

前のページに戻る