特許
J-GLOBAL ID:200903075688441604

類似文書検索装置および類似文書検索方法

発明者:
出願人/特許権者:
代理人 (1件): 須山 佐一
公報種別:公開公報
出願番号(国際出願番号):特願平9-208039
公開番号(公開出願番号):特開平11-053381
出願日: 1997年08月01日
公開日(公表日): 1999年02月26日
要約:
【要約】【課題】 ある文書に類似した文書を自動検索する装置において、より高速な検索処理が可能でしかも検索精度の高い類似文書検索装置を実現する。【解決手段】 外部記憶装置5に記憶された各文書データについて単語頻度表と文書ノルム表を予め作成しておき、検索対象および被検索対象の各文書が指定されたところで各文書の単語頻度表および文書ノルム表を参照して文書データ間の類似度計算を行う。これにより連続して複数の検索対象文書と複数の被検索対象文書との類似度を算出する場合に単語頻度表の作成やノルムの計算を重複して行う必要がなくなり高速な処理が可能となる。また、文書データ中の検索条件単語の出現頻度を考慮した類似文書検索が可能となり、同時に複数の検索対象文書と複数の被検索対象文書を対象とした類似文書検索を高精度に行える。
請求項(抜粋):
複数の文書データを格納する格納手段と、前記格納手段に格納された文書データごとに、予め設定された検索条件単語ごとの出現頻度を求めて単語頻度表を作成する単語頻度表作成手段と、前記格納手段に格納された文書データごとに、前記単語頻度表作成手段により作成された単語頻度表中の検索条件単語ごとの出現頻度を要素とする1次元ベクトルのノルムを算出して文書ノルム表を作成する文書ノルム表作成手段と、前記格納手段に格納された文書データの中から検索対象および被検索対象の各文書データを指定する指定手段と、前記指定手段により指定された各文書データ間の類似度を、前記単語頻度表および前記文書ノルム表に基づき算出する類似度算出手段とを有することを特徴とする類似文書検索装置。
FI (3件):
G06F 15/403 350 C ,  G06F 15/40 370 A ,  G06F 15/403 340 B

前のページに戻る