Pat
J-GLOBAL ID:200903003744607510

情報抽出方法、情報抽出装置および情報抽出プログラム

Inventor:
Applicant, Patent owner:
Agent (1): 境 廣巳
Gazette classification:公開公報
Application number (International application number):2002198199
Publication number (International publication number):2004038827
Application date: Jul. 08, 2002
Publication date: Feb. 05, 2004
Summary:
【課題】構造化文書のドキュメントソースから構成要素とその属性を精度良く抽出する。【解決手段】前処理手段322は、入力手段121で入力された構造化文書のドキュメントソース情報M01をレイアウト解析および属性判定し易いように改変する。レンダリング手段123は、前処理後のソースM02を実際に描画したときの画像データM05を生成する。レイアウト解析手段124は、画像データM05をレイアウト解析する。属性判定手段325は、レイアウト解析情報M07を入力し画像データの構成要素の属性を判定する。出力手段327は、レイアウト解析で得られた画像データの構成要素に対応するドキュメントソース部分を構造化文書の構成要素として前記判定された属性と共に出力する。【選択図】 図3
Claim (excerpt):
構造化文書に定義されたレイアウト情報に従って前記構造化文書のドキュメントソースを描画したときの画像情報を生成し、前記画像情報をレイアウト解析し、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として出力することを特徴とする情報抽出方法。
IPC (1):
G06F17/21
FI (3):
G06F17/21 501T ,  G06F17/21 530T ,  G06F17/21 570L
F-Term (4):
5B009NA03 ,  5B009NA05 ,  5B009SA13 ,  5B009SA14
Patent cited by the Patent:
Cited by examiner (1)

Return to Previous Page