特許
J-GLOBAL ID:200903099478085470

文書処理装置及び文書処理方法

発明者:
出願人/特許権者:
代理人 (1件): 鈴江 武彦 (外6名)
公報種別:公開公報
出願番号(国際出願番号):特願2002-093092
公開番号(公開出願番号):特開2003-288334
出願日: 2002年03月28日
公開日(公表日): 2003年10月10日
要約:
【要約】【課題】複数ページからなる印刷文書に含まれる図、表などの浮遊要素を適切な位置に設定してXML文書やHTML文書などの構造化文書を生成する。【解決手段】印刷文書に対応した文書画像をレイアウト解析部11にてレイアウト解析して文章領域と図表領域を抽出すると共に文字認識部12にて文章領域中の文字を切り出して認識処理する。文字認識結果とレイアウト解析結果を文書論理要素抽出部13に与えて文章領域から文書論理要素領域を抽出し、読み順設定部14にて文書論理要素領域と図表領域の各領域に対して順序付けを行う。そして、文書構造解析部16にて文書論理要素領域と図表領域の各領域をグループ化して文書構造を抽出し、その文書構造の中で浮遊要素に相当する領域の出現位置を変更して文書出力部17に与えて構造化文書を生成する。
請求項(抜粋):
複数ページからなる印刷文書を処理対象とし、その印刷文書に対応した文書画像から所定形式の構造化文書を生成する文書処理装置であって、上記文書画像をレイアウト解析して文章領域と図表領域に相当する部分画像を抽出するレイアウト解析手段と、このレイアウト解析手段によって得られた文章領域の部分画像から文字を切り出して認識処理する文字認識手段と、この文字認識手段の文字認識結果と上記レイアウト解析手段のレイアウト解析結果に基づいて、上記文章領域から文書見出し、章節見出し、段落、箇条書き、ヘッダ、フッタ、図表キャプション、脚注、数式などの文書論理要素領域を抽出する文書論理要素抽出手段と、この文書論理要素抽出手段によって得られた文書論理要素領域と上記図表領域の各領域に対して順序付けを行う読み順設定手段と、この読み順設定手段によって設定された各領域の順序と領域種別、領域間の配置関係に基づいて上記文書論理要素領域と上記図表領域の各領域をグループ化することにより文書構造を抽出する文書構造抽出手段と、この文書構造抽出手段によって得られた文書構造の中でグループ化された領域あるいは単独の領域の出現位置を変更する文書構造変更手段と、この文書構造変更手段によって変更された文書構造に基づいて所定形式の構造化文書を生成する構造化文書生成手段とを具備したことを特徴とする文書処理装置。
IPC (3件):
G06F 17/21 530 ,  G06F 17/21 501 ,  G06K 9/20 340
FI (3件):
G06F 17/21 530 A ,  G06F 17/21 501 Z ,  G06K 9/20 340 L
Fターム (6件):
5B009QA06 ,  5B009QB14 ,  5B009TA11 ,  5B029CC28 ,  5B029CC29 ,  5B029EE08
引用特許:
審査官引用 (2件)

前のページに戻る