Pat
J-GLOBAL ID:200903020547728757

類似文書検索方法

Inventor:
Applicant, Patent owner:
Agent (1): 小川 勝男
Gazette classification:公開公報
Application number (International application number):1995310325
Publication number (International publication number):1997153051
Application date: Nov. 29, 1995
Publication date: Jun. 10, 1997
Summary:
【要約】【課題】本発明の課題は、文字種の多い日本語等の文書データベースに対しても、高速で低ノイズのレリバンス・フィードバックを実現する文書検索システムを提供することである。【解決手段】対象テキストデータベース中のテキスト103に存在する所定の部分文字列のテキストにおける出現頻度を出現頻度ファイル106として格納するステップと、これらの部分文字列の重みを重み算出プログラム117で算出して重みファイル105として格納するステップと、ユーザが指定したテキストから重みが所定の基準を満たす部分文字列を抽出するステップとを有し、出現頻度ファイル106と重みファイル105を用いてユーザが指定したテキストに対する類似度を算出し、算出された類似度を用いて文書を検索する。
Claim (excerpt):
文書情報を文字コードデータであるテキストとして蓄積したテキストデータベースを対象として、対象テキストから所定の部分文字列と該部分文字列の該テキストにおける出現頻度を抽出し、該出現頻度を基に所定の算出式を用いて算出した該部分文字列の重要度を重要度ファイルとして記憶する重要度ファイル作成登録ステップと、ユーザが指定した文書に対応する選択テキストから所定の部分文字列を抽出し、該部分文字列の該選択テキストと対象テキストデータベース中のテキストにおける出現頻度を取得し、該出現頻度と上記重要度ファイルから所定の算出式を用いて該対象テキストデータベース中の該テキストの該選択テキストに対する類似度を算出し、その類似度の降順にテキストをソートして出力するレリバンス・フィードバックステップを有する文書検索方法において、上記レリバンス・フィードバックステップは、上記選択テキストからの部分文字列の抽出時に、重要度が所定の基準を満たす部分文字列を抽出する選択テキスト部分文字列抽出ステップを有することを特徴とした文書検索方法。
FI (2):
G06F 15/403 350 A ,  G06F 15/40 370 A
Patent cited by the Patent:
Cited by examiner (3)

Return to Previous Page