特許
J-GLOBAL ID:201103031463908962

文書データベース作成方法及び装置及び文書データベース作成プログラムを格納した記憶媒体

発明者:
出願人/特許権者:
代理人 (1件): 伊東 忠彦
公報種別:特許公報
出願番号(国際出願番号):特願2000-345789
公開番号(公開出願番号):特開2002-149653
特許番号:特許第3690266号
出願日: 2000年11月13日
公開日(公表日): 2002年05月24日
請求項(抜粋):
【請求項1】 検索語が入力されると該当する文書を検索するための更新データベースを作成する文書データベース作成装置であって、 入力された全文書を形態素解析し、該形態素解析によって得られる単語のうち、必要な単語のみ選択し、選択された各単語と、各文書の対について、該文書が該単語を含んでいれば、1が割り当てられ、含んでいなければ0が割り当てられているような文書集合と単語集合の関係データベースである原データベースを作成する原データベース作成手段と、 前記文書集合における各文書と前記単語集合における各単語の対について、該文書が該単語を持つ確率推定値を格納するための、前記文書集合と前記単語集合の関係データベースである更新データベースを作成する更新データベース作成手段と、 前記原データベース上の単語が同一な単語と文書の対の集合である単語レコードの中で、回帰分析手段において、未処理の単語レコードを一つ処理対象としてとり、該回帰分析手段において未処理の単語レコードがなければ処理を終了する処理対象単語レコード決定手段と、 前記原データベース上の、前記処理対象単語レコード決定手段で決定した単語レコードの単語を被説明変数とし、それ以外の全ての単語を説明変数とし、各文書を標本として、回帰分析し、被説明変数を説明する尤度が最大となる各説明変数の係数を求め、各文書毎に、前記求めた各説明変数の係数と前記原データベース上の各説明変数の値とを用いて、前記文書集合における各文書が前記被説明変数の単語をもつ確率推定値を求め、該確率推定値を前記更新データベース上の該文書と該単語との間に設定し、前記処理対象単語レコード決定手段における処理に移行する回帰分析手段と、からなることを特徴とする文書データベース作成装置。
IPC (1件):
G06F 17/30
FI (3件):
G06F 17/30 320 D ,  G06F 17/30 170 A ,  G06F 17/30 240 A
引用特許:
審査官引用 (1件)

前のページに戻る