Pat
J-GLOBAL ID:200903042727621504

類似文書検索装置、類似文書検索方法及び記録媒体

Inventor:
Applicant, Patent owner:
Agent (1): 鈴江 武彦 (外6名)
Gazette classification:公開公報
Application number (International application number):1999334597
Publication number (International publication number):2001155020
Application date: Nov. 25, 1999
Publication date: Jun. 08, 2001
Summary:
【要約】【課題】文書が属する分野や作成時期を考慮して類似文書を高精度に検索する。【解決手段】複数の検索対象文書の中から検索キーとして与えられた文書と類似する文書を検索する類似文書検索装置において、文書の内容を特徴付ける単語の時間的な変化に着目し、各文書毎の単語の出現頻度に各文書の時間的な要素に応じた重み付けを行うことで、時間別の単語の重要度を得て、その単語の重要度を加味した類似度計算を行う。さらに、特徴単語の時間的な変化は文書が属する分野によっても異なるため、各文書を分野別に分類し、その分野別の時間的な要素に応じた重み付けを行うことで、分野別かつ時間別の単語の重要度を得て、その単語の重要度を加味した類似度計算を行う。これにより、類似度計算に単語の重要度を的確に反映させて、高精度に類似文書を検索することができる。
Claim (excerpt):
複数の検索対象文書の中から検索キーとして与えられた文書と類似する文書を検索する類似文書検索装置において、上記各検索対象文書および上記検索キー文書のそれぞれに含まれる単語の出現頻度を求める出現頻度算出手段と、この出現頻度算出手段によって得られた上記各検索対象文書および上記検索対象文書に対応した単語の出現頻度に、それぞれの文書の時間的な要素に応じた重み付けを行う単語重み付け手段と、この単語重み付け手段によって重み付けされた単語出現頻度に基づいて上記各検索対象文書と上記検索キー文書との類似度を算出する類似度算出手段と、この類似度算出手段によって得られた類似度に基づいて上記各検索対象文書の中から上記検索対象文書と類似する文書を検索結果として出力する出力手段とを具備したことを特徴とする類似文書検索装置。
FI (3):
G06F 15/40 370 A ,  G06F 15/403 340 B ,  G06F 15/403 350 C
F-Term (9):
5B075ND03 ,  5B075NK02 ,  5B075NK10 ,  5B075NR05 ,  5B075NR12 ,  5B075PR04 ,  5B075PR06 ,  5B075PR10 ,  5B075UU05

Return to Previous Page