特許
J-GLOBAL ID:200903042727621504

類似文書検索装置、類似文書検索方法及び記録媒体

発明者:
出願人/特許権者:
代理人 (1件): 鈴江 武彦 (外6名)
公報種別:公開公報
出願番号(国際出願番号):特願平11-334597
公開番号(公開出願番号):特開2001-155020
出願日: 1999年11月25日
公開日(公表日): 2001年06月08日
要約:
【要約】【課題】文書が属する分野や作成時期を考慮して類似文書を高精度に検索する。【解決手段】複数の検索対象文書の中から検索キーとして与えられた文書と類似する文書を検索する類似文書検索装置において、文書の内容を特徴付ける単語の時間的な変化に着目し、各文書毎の単語の出現頻度に各文書の時間的な要素に応じた重み付けを行うことで、時間別の単語の重要度を得て、その単語の重要度を加味した類似度計算を行う。さらに、特徴単語の時間的な変化は文書が属する分野によっても異なるため、各文書を分野別に分類し、その分野別の時間的な要素に応じた重み付けを行うことで、分野別かつ時間別の単語の重要度を得て、その単語の重要度を加味した類似度計算を行う。これにより、類似度計算に単語の重要度を的確に反映させて、高精度に類似文書を検索することができる。
請求項(抜粋):
複数の検索対象文書の中から検索キーとして与えられた文書と類似する文書を検索する類似文書検索装置において、上記各検索対象文書および上記検索キー文書のそれぞれに含まれる単語の出現頻度を求める出現頻度算出手段と、この出現頻度算出手段によって得られた上記各検索対象文書および上記検索対象文書に対応した単語の出現頻度に、それぞれの文書の時間的な要素に応じた重み付けを行う単語重み付け手段と、この単語重み付け手段によって重み付けされた単語出現頻度に基づいて上記各検索対象文書と上記検索キー文書との類似度を算出する類似度算出手段と、この類似度算出手段によって得られた類似度に基づいて上記各検索対象文書の中から上記検索対象文書と類似する文書を検索結果として出力する出力手段とを具備したことを特徴とする類似文書検索装置。
FI (3件):
G06F 15/40 370 A ,  G06F 15/403 340 B ,  G06F 15/403 350 C
Fターム (9件):
5B075ND03 ,  5B075NK02 ,  5B075NK10 ,  5B075NR05 ,  5B075NR12 ,  5B075PR04 ,  5B075PR06 ,  5B075PR10 ,  5B075UU05

前のページに戻る