特許
J-GLOBAL ID:200903006284201233

文書画像からのタイトル抽出装置および方法

発明者:
出願人/特許権者:
代理人 (1件): 大菅 義之 (外1名)
公報種別:公開公報
出願番号(国際出願番号):特願平7-341983
公開番号(公開出願番号):特開平9-134406
出願日: 1995年12月28日
公開日(公表日): 1997年05月20日
要約:
【要約】【課題】 文書を画像データに変換して得られる文書画像から容易にタイトル部分を抽出することが課題である。【解決手段】 タイトル抽出装置は、文書画像内の黒画素を走査し、それらが連結している領域に外接する矩形領域を文字矩形として抽出し、さらに、隣接する複数の文字矩形を統合して、それらの文字矩形に外接する矩形領域を文字列矩形として抽出する。次に、各文字列矩形の下線属性、枠付き属性、罫線属性等の属性と、文書画像内の文字列矩形の位置や相互の位置関係とに基づいて、タイトルらしさのポイント計算を行い、高ポイントを獲得した文字列矩形をタイトル矩形として抽出する。また、表形式の文書の場合、表内からタイトル矩形を抽出することもできる。抽出されたタイトル矩形内の文字は、認識処理後に文書画像のキーワードとして用いられる。
請求項(抜粋):
文書を画像データに変換して得られる文書画像から必要とする部分領域を取り出して認識する情報処理装置において、前記文書画像内の連結した黒画素からなる黒画素連結領域を含む文字領域を生成する文字領域生成手段と、前記文字領域生成手段が生成した1つ以上の文字領域を統合して、該1つ以上の文字領域を含む文字列領域を生成する文字列領域生成手段と、前記文字列領域生成手段が生成した複数の文字列領域の属性に基づいて、該複数の文字列領域のうち特定の文字列領域を、タイトル領域として抽出するタイトル抽出手段とを備えることを特徴とするタイトル抽出装置。
IPC (2件):
G06K 9/20 340 ,  G06T 11/60
FI (2件):
G06K 9/20 340 J ,  G06F 15/62 325 D
引用特許:
出願人引用 (10件)
  • 特開昭61-026149
  • 特開昭61-026150
  • 特開平3-014184
全件表示
審査官引用 (15件)
  • 特開昭61-026149
  • 特開昭61-026149
  • 特開昭61-026150
全件表示

前のページに戻る