特許
J-GLOBAL ID:200903082278156372

酷似文書抽出方法

発明者:
出願人/特許権者:
代理人 (1件): 笹岡 茂 (外1名)
公報種別:公開公報
出願番号(国際出願番号):特願平8-026185
公開番号(公開出願番号):特開平9-198409
出願日: 1996年01月19日
公開日(公表日): 1997年07月31日
要約:
【要約】【課題】 ある文書に酷似した文書を精度良く抽出し、また少ないノイズで抽出することにある。【解決手段】 新規文書1を文書入力処理2し、辞書11,12を用いて特定品詞の単語抽出、不要語除去、単語出現順序の認定等の単語出現パターン抽出処理3をし、単語情報テーブル13を生成し、DB内の全文書について処理3を施して得られているDB情報テーブル14と照合し、文書単位毎に、共通して出現する単語と該各単語の出現順序が同じである単語の列を抽出し、前記共通して出現する単語の数に重みを付した値と、前記単語の列を構成する単語の数を変数とする単調増加関数の値を加算して文章単位毎に酷似度を計算し、あるしきい値以上の酷似度を持つ文章単位がある長さ以上続く場合に酷似文書と認定する酷似文書決定処理4をし、結果の表示5をし、登録判定6をする。
請求項(抜粋):
電子化文書集合と、前記電子化文書集合を格納する文書格納手段と、文書を入力するための文書入力手段と、ユーザが操作指示情報を入力するための操作指示入力手段と、ユーザに報知するための出力手段とを備えた文書抽出装置における文書抽出方法であって、前記電子化文書集合内の電子化文書の各々に出現する語句およびその出現順序に関するデータを格納する文書集合情報テーブルを備え、予め語句の情報を格納した辞書を参照して前記文書入力手段を介して入力された新規文書に出現する語句を解析し、前記出現する語句のうち、ユーザによって前記操作指示入力手段を介して予め指定された種類の語句に属する語句および該各語句の出現順序を抽出し、単語情報テーブルを生成し、前記単語情報テーブルと前記文書集合情報テーブルとを照合して、前記新規文書を構成する文章構成単位と、前記電子化文書集合内の電子化文書の各々を構成する文章構成単位とにおいて、共通して出現する語句と該各語句の連続した出現順序が同じである語句の列を抽出し、前記共通して出現する語句の数に重みを付した値と、前記語句の列を構成する語句の数を変数とする単調増加関数の値に基づき前記文章構成単位毎に酷似度を計算し、ユーザによって前記操作指示入力手段を介して予め指定されたしきい値以上の酷似度を有する文章構成単位を持つ前記電子化文書集合内の文書を抽出し、前記抽出結果を前記出力手段を介してユーザに報知することを特徴とする酷似文書抽出方法。
FI (2件):
G06F 15/403 350 C ,  G06F 15/401 310 A

前のページに戻る