特許
J-GLOBAL ID:200903003744607510

情報抽出方法、情報抽出装置および情報抽出プログラム

発明者:
出願人/特許権者:
代理人 (1件): 境 廣巳
公報種別:公開公報
出願番号(国際出願番号):特願2002-198199
公開番号(公開出願番号):特開2004-038827
出願日: 2002年07月08日
公開日(公表日): 2004年02月05日
要約:
【課題】構造化文書のドキュメントソースから構成要素とその属性を精度良く抽出する。【解決手段】前処理手段322は、入力手段121で入力された構造化文書のドキュメントソース情報M01をレイアウト解析および属性判定し易いように改変する。レンダリング手段123は、前処理後のソースM02を実際に描画したときの画像データM05を生成する。レイアウト解析手段124は、画像データM05をレイアウト解析する。属性判定手段325は、レイアウト解析情報M07を入力し画像データの構成要素の属性を判定する。出力手段327は、レイアウト解析で得られた画像データの構成要素に対応するドキュメントソース部分を構造化文書の構成要素として前記判定された属性と共に出力する。【選択図】 図3
請求項(抜粋):
構造化文書に定義されたレイアウト情報に従って前記構造化文書のドキュメントソースを描画したときの画像情報を生成し、前記画像情報をレイアウト解析し、前記レイアウト解析で得られた前記画像情報の構成要素に対応するドキュメントソース部分を前記構造化文書の構成要素として出力することを特徴とする情報抽出方法。
IPC (1件):
G06F17/21
FI (3件):
G06F17/21 501T ,  G06F17/21 530T ,  G06F17/21 570L
Fターム (4件):
5B009NA03 ,  5B009NA05 ,  5B009SA13 ,  5B009SA14
引用特許:
出願人引用 (5件)
全件表示
審査官引用 (1件)
引用文献:
前のページに戻る