特許
J-GLOBAL ID:200903040923343226

類似文書検索装置と類似文書検索方法

発明者:
出願人/特許権者:
代理人 (1件): 須山 佐一
公報種別:公開公報
出願番号(国際出願番号):特願平11-142444
公開番号(公開出願番号):特開2000-331026
出願日: 1999年05月21日
公開日(公表日): 2000年11月30日
要約:
【要約】【課題】 文書内の単語の出現頻度等を用いて文書間の類似度を算出する類似文書検索において、個々の単語の重要度を分野毎に最適化することによって、様々な分野の文書の類似検索の精度を上げる。【解決手段】 検索対象文書を分類例えば分野別に分類し、その分野毎に、単語毎の出現頻度に対する最適な重みを算出し、検索キー文書および検索対象文書からそれぞれ抽出された単語の出現頻度と前記分類別の重みを用いて検索キー文書と検索対象文書との類似度を求めるために必要なノルム情報を作成することによって、分野毎に個々の単語の重要度を考慮した類似度の算出が可能となり、精度の高い類似文書検索を実現することができる。
請求項(抜粋):
検索キー文書に類似する文書を複数の検索対象文書の中から検索する類似文書検索装置において、前記複数の検索対象文書を分類毎に記憶する手段と、前記検索キー文書および前記検索対象文書から単語を抽出して単語毎の出現頻度を求める手段と、前記検索対象文書の分類毎に、前記検索キー文書および前記検索対象文書から抽出される単語毎の出現頻度に対する重みを算出する重み算出手段と、前記検索キー文書および前記検索対象文書から抽出された単語毎の出現頻度と前記重み算出手段によって算出された重みを用いて、前記検索キー文書と前記検索対象文書との類似度を計算するための情報を作成する類似度計算情報作成手段とを具備することを特徴とする類似文書検索装置。
FI (2件):
G06F 15/403 350 C ,  G06F 15/403 340 B
Fターム (10件):
5B075ND03 ,  5B075NK31 ,  5B075NR02 ,  5B075NR12 ,  5B075PP24 ,  5B075PQ74 ,  5B075PR04 ,  5B075QM08 ,  5B075QS01 ,  5B075UU40

前のページに戻る