特許
J-GLOBAL ID:200903037142719742

類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体

発明者:
出願人/特許権者:
代理人 (1件): 須山 佐一
公報種別:公開公報
出願番号(国際出願番号):特願平10-055560
公開番号(公開出願番号):特開平11-259487
出願日: 1998年03月06日
公開日(公表日): 1999年09月24日
要約:
【要約】【課題】 検索キー文書と検索対象文書から複合語を抽出して類似文書を検索する場合の検索精度の向上を図る。【解決手段】 検索キー文書或いは検索対象文書に例えば「筆文字宛名印刷機能」といった複合語が存在し、最大結合数を3と指定したとき「筆文字宛名」「文字宛名印刷」「宛名印刷機能」「筆文字」「文字宛名」などの最大結合数以下の単語数からなる複合語を各文書からすべて抽出し、これらの複合語の出現頻度を計算して、検索キー文書と検索対象文書との類似度を算出する。特定の内容の文書を特徴付ける異なる複合語を漏れなく抽出することができるので、文書間のより妥当な類似度を計算でき、ユーザの意図する精度の高い類似文書検索を行うことができる。
請求項(抜粋):
ある文書を検索キー文書としてこの検索キー文書と類似する文書を複数の検索対象文書の中から検索する類似文書検索装置において、前記検索キー文書および前記検索対象文書を単語単位に分割する分割手段と、前記分割手段によって分割された単語の中から予め指定された条件を満たす単語を抽出する単語抽出手段と、前記検索キー文書および前記検索対象文書から抽出すべき複合語を構成する単語数の上限値を指定する指定手段と、前記単語抽出手段によって抽出された単語の結合により構成される複合語のうち前記指定手段により指定された上限値以下の数の単語により構成されるすべての複合語を前記検索キー文書および前記検索対象文書から抽出する複合語抽出手段と、前記複合語抽出手段によって抽出された複合語の前記検索キー文書および前記検索対象文書での出現頻度をそれぞれ算出する手段とを具備することを特徴とする類似文書検索装置。
FI (3件):
G06F 15/403 330 B ,  G06F 15/401 310 A ,  G06F 15/403 350 C

前のページに戻る