特許
J-GLOBAL ID:200903059392884041
文書処理装置および文書処理方法
発明者:
出願人/特許権者:
代理人 (1件):
鈴江 武彦 (外6名)
公報種別:公開公報
出願番号(国際出願番号):特願平10-064431
公開番号(公開出願番号):特開平11-250041
出願日: 1998年02月27日
公開日(公表日): 1999年09月17日
要約:
【要約】【課題】印刷文書に記載されている内容を抽出・構造化してコンピュータに自動入力できるようにすること。【解決手段】文書画像からレイアウトオブジェクトと構造を抽出する手段1と、文書画像から抽出したテキストの領域からタイポグラフィーに基づいて段落、リスト、数式、プログラム、注釈等の論理オブジェクトを抽出する手段3と、オブジェクト間の複数の可能な読み順を抽出する手段5と、論理オブジェクトに対して予め定義されているモデルを適用して論理構造を抽出する手段4と、から構成され、文字、写真、図形、表などで構成される多様な複数頁構成の文書からでも一次情報二次情報を抽出し、多様な電子フォーマットに変換可能にすることにより、文書管理システムの自動構築や様々な計算機アプリケーションの有効活用を可能にする。
請求項(抜粋):
文書画像からその文書のレイアウトオブジェクトとレイアウト構造を抽出するレイアウト解析手段と、文書画像より得た文字の配置情報からタイポグラフィック情報を得てこれより論理オブジェクトを抽出する手段と、レイアウトオブジェクトと論理オブジェクトの読み順を決定する手段と、この読み順に従って論理オブジェクト間の階層構造、参照構造、関係構造を論理構造として抽出する抽出手段と、複数ページの文書構造を認識する手段と、で構成される文書処理装置。
IPC (2件):
FI (2件):
G06F 15/20 530 A
, G06F 15/20 550 E
引用特許:
前のページに戻る