特許
J-GLOBAL ID:200903057596036411

文書検索方法及び装置並びに記録媒体

発明者:
出願人/特許権者:
代理人 (1件): 河野 登夫
公報種別:公開公報
出願番号(国際出願番号):特願平11-004587
公開番号(公開出願番号):特開2000-207404
出願日: 1999年01月11日
公開日(公表日): 2000年07月28日
要約:
【要約】【課題】 任意の文書に類似する類似文書の検索に用いるN-gramの数を有効に削減でき、類似文書の検索処理を高速に行える文書検索方法及び装置、並びに、その検索方法を実施するためのプログラムを記録した記録媒体を提供する。【解決手段】 検索対象文書に含まれる単語を抽出し(S2〜S6)、その単語のN-gramを生成して(S7〜S9)、検索対象文書と含まれるN-gramとの関係を示す転置ベクトル表を準備しておく(S10,S11)。任意の検索キー文書に含まれる単語を抽出して、その単語のN-gramを生成する。転置ベクトル表と、その検索キー文書におけるN-gramとに基づき、検索キー文書に類似する類似文書を検索する。
請求項(抜粋):
任意の文書に類似する類似文書を、複数の文書から検索する文書検索方法において、前記複数の文書に含まれる単語を抽出するステップと、抽出した単語のN-gramを生成するステップと、前記任意の文書に含まれる単語を抽出するステップと、抽出した単語のN-gramを生成するステップと、前記任意の文書について生成したN-gramと前記複数の文書について生成したN-gramとを比較し、その比較結果に基づいて類似文書を検索するステップとを有することを特徴とする文書検索方法。
FI (2件):
G06F 15/403 350 C ,  G06F 15/40 370 A
Fターム (5件):
5B075NK02 ,  5B075NK32 ,  5B075NK34 ,  5B075QM08 ,  5B075UU06

前のページに戻る