特許
J-GLOBAL ID:200903071103941830

文書構造認識方法及び装置及び文書構造認識プログラムを格納した記憶媒体

発明者:
出願人/特許権者:
代理人 (1件): 伊東 忠彦
公報種別:公開公報
出願番号(国際出願番号):特願平10-317948
公開番号(公開出願番号):特開2000-148752
出願日: 1998年11月09日
公開日(公表日): 2000年05月30日
要約:
【要約】【課題】 文書内の特定の文字列パターンとそのパターンを含む行の行頭から行末までの長さに着目し、行全体の長さと特定文字列パターンの長さの関係を考慮することにより、分野に依存しない任意の箇条書きを含む文の構造を解析することが可能な文書構造認識方法及び装置及び文書構造認識プログラムを格納した記憶媒体を提供する。【解決手段】 本発明は、認識対象となる文書を入力し、文書と、予め保持されている箇条書きパターンとを行毎にパターンマッチングを行い、該箇条書きパターンにマッチする箇条書きの候補を生成し、文書の一行について文字が存在する行頭から文字が存在する行末までの文字列の長さを測定し、生成された箇条書き候補に空白が含まれる場合には、文字列の長さを用いて、得られた該箇条書き候補の中から1つの箇条書き候補を決定し、決定された箇条書き候補から空白を削除して箇条書きラベル及び内容の情報を取得し、決定された箇条書き候補に、ラベルの内容の情報をタグとして付与して出力する。
請求項(抜粋):
任意の箇条書きを含む文書の構造を解析するための文書構造認識方法において、認識対象となる文書を入力し、前記文書と、予め保持されている箇条書きパターンとを行毎にパターンマッチングを行い、該箇条書きパターンにマッチする箇条書きの候補を生成し、前記文書の一行について文字が存在する行頭から文字が存在する行末までの文字列の長さを測定し、生成された前記箇条書き候補に空白が含まれる場合には、前記文字列の長さを用いて、得られた該箇条書き候補の中から1つの箇条書き候補を決定し、決定された前記箇条書き候補から空白を削除して箇条書きラベル及び内容の情報を取得し、決定された前記箇条書き候補に、ラベルの内容の情報をタグとして付与して出力することを特徴とする文書構造認識方法。
IPC (2件):
G06F 17/27 ,  G06F 17/30
FI (2件):
G06F 15/20 550 E ,  G06F 15/40 340
Fターム (5件):
5B009QA06 ,  5B075ND03 ,  5B075PR06 ,  5B075QM06 ,  5B075UU24

前のページに戻る