特許
J-GLOBAL ID:200903048750624292

類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体

発明者:
出願人/特許権者:
代理人 (1件): 須山 佐一
公報種別:公開公報
出願番号(国際出願番号):特願平10-061726
公開番号(公開出願番号):特開平11-259515
出願日: 1998年03月12日
公開日(公表日): 1999年09月24日
要約:
【要約】【課題】 従来、文書間の類似度の算出において、各文書内の単語群から、類似度算出において不要と思われる単語(不要語)をユーザ自身が一つ一つ選択している。このためユーザの負担が大きく不要語の選択漏れも発生する確率が高い。【解決手段】 文書間の類似度算出において各文書データから抽出される単語群の中から排除すべき種類の単語(不要語)を設定するための基準の設定を行う不要語設定部20と、このバッファ44内の設定内容に基づいて不要語リストを自動作成する不要語リスト作成部21とを備える。基準の設定は、例えば、任意の単語(不要語)をユーザが1つ乃至複数指定することによって行われ、この場合、不要語リスト作成部21は、指定された不要語の最小出現頻度を基準値として求め、文書データより抽出された単語群のうち、算出された出現頻度が基準値以上のすべての単語を不要語とする。
請求項(抜粋):
ある文書を検索キー文書としてこの検索キー文書と類似する文書を複数の検索対象文書の中から検索する類似文書検索装置において、前記検索キー文書および前記検索対象文書を含む複数の文書データが格納された文書データ格納手段と、任意の単語を指定する単語指定手段と、前記文書データ格納手段に格納された各文書データから単語を抽出する単語抽出手段と、前記単語指定手段により指定された任意の単語および前記単語抽出手段により抽出された単語の前記各文書データ中での出現頻度をそれぞれ算出する出現頻度算出手段と、前記出現頻度算出手段によって算出された前記任意の単語の出現頻度を基準として、前記単語抽出手段により抽出された単語のうちの少なくとも一部の単語を不要語として判定する不要語判定手段と、前記検索キー文書および前記検索対象文書から前記不要語判定手段により判定された不要語をそれぞれ除いて両文書間の類似度を算出する手段と、を具備することを特徴とする類似文書検索装置。
IPC (3件):
G06F 17/30 ,  G06F 17/27 ,  G06F 17/21
FI (4件):
G06F 15/40 370 A ,  G06F 15/20 550 A ,  G06F 15/20 570 N ,  G06F 15/403 350 C

前のページに戻る