特許
J-GLOBAL ID:200903020547728757

類似文書検索方法

発明者:
出願人/特許権者:
代理人 (1件): 小川 勝男
公報種別:公開公報
出願番号(国際出願番号):特願平7-310325
公開番号(公開出願番号):特開平9-153051
出願日: 1995年11月29日
公開日(公表日): 1997年06月10日
要約:
【要約】【課題】本発明の課題は、文字種の多い日本語等の文書データベースに対しても、高速で低ノイズのレリバンス・フィードバックを実現する文書検索システムを提供することである。【解決手段】対象テキストデータベース中のテキスト103に存在する所定の部分文字列のテキストにおける出現頻度を出現頻度ファイル106として格納するステップと、これらの部分文字列の重みを重み算出プログラム117で算出して重みファイル105として格納するステップと、ユーザが指定したテキストから重みが所定の基準を満たす部分文字列を抽出するステップとを有し、出現頻度ファイル106と重みファイル105を用いてユーザが指定したテキストに対する類似度を算出し、算出された類似度を用いて文書を検索する。
請求項(抜粋):
文書情報を文字コードデータであるテキストとして蓄積したテキストデータベースを対象として、対象テキストから所定の部分文字列と該部分文字列の該テキストにおける出現頻度を抽出し、該出現頻度を基に所定の算出式を用いて算出した該部分文字列の重要度を重要度ファイルとして記憶する重要度ファイル作成登録ステップと、ユーザが指定した文書に対応する選択テキストから所定の部分文字列を抽出し、該部分文字列の該選択テキストと対象テキストデータベース中のテキストにおける出現頻度を取得し、該出現頻度と上記重要度ファイルから所定の算出式を用いて該対象テキストデータベース中の該テキストの該選択テキストに対する類似度を算出し、その類似度の降順にテキストをソートして出力するレリバンス・フィードバックステップを有する文書検索方法において、上記レリバンス・フィードバックステップは、上記選択テキストからの部分文字列の抽出時に、重要度が所定の基準を満たす部分文字列を抽出する選択テキスト部分文字列抽出ステップを有することを特徴とした文書検索方法。
FI (2件):
G06F 15/403 350 A ,  G06F 15/40 370 A
引用特許:
出願人引用 (3件) 審査官引用 (3件)

前のページに戻る