特許
J-GLOBAL ID:200903081778321187
類似文書検索システムおよびそれに用いる記憶媒体
発明者:
出願人/特許権者:
代理人 (1件):
武 顕次郎
公報種別:公開公報
出願番号(国際出願番号):特願平9-232654
公開番号(公開出願番号):特開平11-073422
出願日: 1997年08月28日
公開日(公表日): 1999年03月16日
要約:
【要約】【課題】 与えられた文書に類似した文書を検索する文書検索において、単語辞書や構文規則等の外部情報とその準備や保守を必要とせず、かつ重要概念の文書間の包含関係を考慮して利用者にとって有用な検索結果を得ることができ、また、文書間の類似度の計算において入力文書の特性と検索結果を考慮して冗長な計算を省くことのできる、効率的な類似文書検索システムを提供すること。【解決手段】 準備や保守が必要となる外部情報を持つ代わりに、その時点で与えられている全ての文書テキストから語群とその頻度情報を抽出・更新し、これを索引に保持することによって、文書テキストのみから得られる最大限の情報を参照および加工して、検索に役立てる。
請求項(抜粋):
入力文書の類似文書を文書群から検索するため入力文書から語を抽出する語抽出部と、抽出された語から文書を検索するための索引を更新する索引更新部と、索引を参照して文書群から文書を索引する検索部と、入力文書を文書群に追加する文書蓄積部とを、備えた類似文書検索システムであって、語を抽出するため入力文書のテキストを字種ごとに分割し、さらにこれら字種分割された文字列を語とし、これらの語および索引に含まれる各語どうしの包含関係に基づいて語を分割し、対応する語の文書情報を再編成して索引を更新することを特徴とする類似文書検索システム。
FI (3件):
G06F 15/403 350 C
, G06F 15/40 370 A
, G06F 15/403 340 B
引用特許:
前のページに戻る