特許
J-GLOBAL ID:200903093063424661
文書構造解析方法及び装置及び文書構造解析プログラムを格納した記憶媒体
発明者:
,
出願人/特許権者:
代理人 (1件):
伊東 忠彦
公報種別:公開公報
出願番号(国際出願番号):特願平10-200654
公開番号(公開出願番号):特開2000-029877
出願日: 1998年07月15日
公開日(公表日): 2000年01月28日
要約:
【要約】【課題】 箇条書きラベルを含んだり、特定の記号等がなくても、文字列の長さや行頭の位置情報を使うことによって、ラベル付箇条書きと本文の単文化についての文書構造を解析することが可能な文書構造解析方法及び装置及び文書構造解析プログラムを格納した記憶媒体を提供する。【解決手段】 本発明は、解析対象の文書を入力し、文書の行頭の引用符の有無を調べ、該引用符がある場合には削除し、文書中の日時、場所、期限を含む特定の箇条書きラベルに使用される文字列を検出し、検出された箇条書きラベルの特徴に基づいて、任意の箇条書きラベルを検出し、箇条書きラベルが検出された行の行頭の位置と、その次以降の箇条書きラベルが検出されない行頭の位置を箇条書き範囲として特定し、箇条書き範囲と判定されない行に対し、その次以降の行を接続し、文単位に区切り、特定の箇条書き、任意の箇条書き及び文を示すタグを文書に付与して出力する。
請求項(抜粋):
文書構造を解析する文書構造解析方法において、解析対象の文書を入力し、前記文書の行頭の引用符の有無を調べ、該引用符がある場合には削除し、前記文書中の日時、場所、期限を含む特定の箇条書きラベルに使用される文字列を検出し、検出された前記箇条書きラベルの特徴に基づいて、任意の箇条書きラベルを検出し、前記箇条書きラベルが検出された行の行頭の位置と、その次以降の箇条書きラベルが検出されない行頭の位置を箇条書き範囲として特定し、箇条書き範囲と判定されない行に対し、その次以降の行を接続し、文単位に区切り、特定の箇条書き、任意の箇条書き及び文を示すタグを文書に付与して出力することを特徴とする文書構造解析方法。
Fターム (1件):
引用特許:
前のページに戻る