特許
J-GLOBAL ID:200903025474628432

文書検索装置および方法

発明者:
出願人/特許権者:
代理人 (1件): 小川 勝男
公報種別:公開公報
出願番号(国際出願番号):特願平5-135590
公開番号(公開出願番号):特開平6-348757
出願日: 1993年06月07日
公開日(公表日): 1994年12月22日
要約:
【要約】【目的】 本体ファイルから圧縮ファイルを作成して等価的に全文検索を高速に行う文書検索装置および方法による文書検索に関し、検索者が指定したキーワードの本体ファイルにおける頻度情報を高速検索に利用することを可能にする。【構成】 単語分割部(1)、出現頻度検出部(2)、頻度ヘッダ作成部(3)を設けデータベース登録時に文書の頻度情報を得て、データ管理データファイル(e)、頻度情報付き圧縮データファイル(g)をデータベースに登録し、文書情報取得部(11)を設けることによって達成される。【効果】 データベースの中でも利用者の指定した頻度に適合した圧縮ファイルをもつ部分のみを検索対象とするので高速に全文検索可能で、かつ検索結果として得られた文書のキーワード以外の単語の文書間の総頻度や出現文書数を得ることができ、検索ノイズを低減することができる。
請求項(抜粋):
大量の文書を検索目的で蓄積しておく装置に関するもので、各文書データを単語毎に分割する手段と、分割された単語の出現頻度を算出する手段と該頻度情報を降順に並び変え単語の累積度数分布情報を算出する手段と、該累積度数分布情報を文書データベースに蓄積する手段と、蓄積された累積度数分布情報を参照して検索実行する手段を具備することを特徴とする文書検索装置。
IPC (2件):
G06F 15/40 500 ,  G06F 15/40

前のページに戻る