特許
J-GLOBAL ID:200903029123813280

類似文書検索方法および装置および、類似文書検索方法のためのプログラムが記録された記憶媒体

発明者:
出願人/特許権者:
代理人 (1件): 作田 康夫
公報種別:公開公報
出願番号(国際出願番号):特願2000-263240
公開番号(公開出願番号):特開2002-073681
出願日: 2000年08月28日
公開日(公表日): 2002年03月12日
要約:
【要約】【課題】 文書登録時に登録文書の特徴ベクトルを作成せずに、検索時に全文検索用インデクスを参照することにより、種文書と登録文書の類似度を算出する類似文書検索方法において、検索精度を極端に低下させることなく高速な類似文書検索を提供すること。【解決手段】 文書の登録処理として全文検索用インデクス作成処理を有し、類似文書の検索処理として種文書特徴ベクトル作成処理と類似度算出処理を有する類似文書検索方法において、種文書特徴ベクトル作成処理の後に、検索用単語抽出処理を有することを特徴とする類似文書検索方法。
請求項(抜粋):
文書データベースに登録された文書あるいは文章や文字列(以下、まとめて文書と呼ぶ)から指定された文書(以下、種文書と呼ぶ)に内容が類似する文書を検索する類似文書検索方法において、文書データベースへの文書の登録処理として、登録対象とする文書の全文検索用インデクスを作成する全文検索用インデクス作成ステップと、類似文書の検索処理として、指定された種文書に含まれる文字列毎の出現回数を要素としたベクトルデータ(以下、種文書特徴ベクトルと呼ぶ)を作成する種文書特徴ベクトル作成ステップと、前記種文書特徴ベクトルの要素である文字列に対して、該種文書の中心的な内容を表す文字列をその程度(以下、文字列重要度と呼ぶ)にしたがって抽出し、該文字列重要度の降順に所定の抽出基準により類似度算出に使用する文字列(以下、検索用文字列と呼ぶ)を抽出する検索用文字列抽出ステップと、前記検索用文字列抽出ステップで抽出された検索用文字列に関して、該検索用文字列の種文書内での出現情報と、文書データベースに登録された文書(以下、登録文書と呼ぶ)内での出現情報を用いて、種文書に対する各登録文書の類似度を算出する類似度算出ステップと、前記類似度算出ステップで算出された各登録文書の種文書に対する類似度を出力する検索結果出力ステップを有することを特徴とした類似文書検索方法。
IPC (3件):
G06F 17/30 350 ,  G06F 17/30 170 ,  G06F 17/30 340
FI (3件):
G06F 17/30 350 C ,  G06F 17/30 170 A ,  G06F 17/30 340 B
Fターム (9件):
5B075ND03 ,  5B075NK32 ,  5B075PP02 ,  5B075PQ02 ,  5B075PQ74 ,  5B075PR04 ,  5B075PR06 ,  5B075PR08 ,  5B075QM08
引用特許:
出願人引用 (4件)
全件表示
審査官引用 (4件)
全件表示

前のページに戻る