特許
J-GLOBAL ID:200903008944876398

情報検索方法、情報検索装置及び情報検索プログラムを格納する媒体

発明者:
出願人/特許権者:
代理人 (1件): 合田 潔 (外2名)
公報種別:公開公報
出願番号(国際出願番号):特願平8-068655
公開番号(公開出願番号):特開平9-259140
出願日: 1996年03月25日
公開日(公表日): 1997年10月03日
要約:
【要約】【課題】 ディスク等に格納された大量の文書を、高速且つ所望の曖昧度を許容しつつ検索する。【解決手段】 索引ファイルにおける、文字連鎖ファイルには、可変長連鎖・固定長連鎖・区切りパターンとそれに対応する文書番号・文書内位置番号が位置情報ファイルのどこに位置するかが格納される。位置情報ファイルには、文書番号・文書内位置番号が格納される。拡張文字連鎖ファイルには、拡張文字連鎖とそれに対応する可変長連鎖番号・可変長連鎖内位置番号が拡張位置情報ファイルのどこに位置するかが格納される。拡張位置情報ファイルには、可変長連鎖番号・可変長連鎖内位置番号が格納される。この索引ファイルを使用して、指定された文字列と文字の並びが似ている文字列を含む文書を高速に検索する。具体的には、文書中から、検索したい文字列と"似ている文字列"を選びだして、何文字連続して一致しているか途中にどのくらい余分な文字がはさまっているかの2つの観点から"似ている度合い"を数値化する。
請求項(抜粋):
コンピュータ処理によって検索可能に記憶された文書中で、可変長連鎖検索文字列を含む検索文字列と一定の文字列類似度以上で類似する可変長連鎖文書文字列を含む文書文字列を検索する方法であって、(a) 前記可変長連鎖文書文字列の存在する文書文字列を特定する文書文字列特定情報と、前記可変長連鎖文書文字列の存在する文書文字列内の位置を示す文書文字列位置情報を前記可変長連鎖文書文字列に関連付ける段階と、(b) 前記可変長連鎖文書文字列から、長さM文字の(Mは、1以上の予定の整数)部分文書文字列を抜き出して格納する段階と、(c) 前記部分文書文字列の存在する可変長連鎖文書文字列を特定する可変長連鎖文書文字列特定情報と、前記部分文書文字列の存在する可変長連鎖文書文字列内の位置を示す可変長連鎖文書文字列位置情報を前記部分文書文字列に関連付ける段階と、(d) 前記可変長連鎖検索文字列から抜き出した長さN文字の(Nは、1以上の予定の整数)部分検索文字列に一致する部分文書文字列を探索する段階と、(e) 前記可変長連鎖検索文字列の部分検索文字列の開始位置を1つずらした長さN文字の部分検索文字列と一致する部分文書文字列を探索する段階と、(f) 前記段階(e)を繰り返し、前記可変長連鎖検索文字列の部分検索文字列と一致する部分文書文字列の集合を特定する段階と、(g) 前記部分文書文字列の集合に属する部分文字列の可変長連鎖文書文字列特定情報及び可変長連鎖文書文字列位置情報から、前記可変長連鎖検索文字列に予定の可変長連鎖一致度以上で一致する可能性のある可変長連鎖文書文字列候補を特定する段階と、(h) 前記可変長連鎖検索文字列と前記可変長連鎖文書文字列候補の可変長連鎖一致度を計算する段階と、(i) 前記可変長連鎖文書文字列候補の中から、前記可変長連鎖検索文字列と予定の可変長連鎖一致度以上の可変長連鎖一致度を有する可変長連鎖文書文字列を選択する段階と、(j) 前記選択された可変長連鎖文書文字列の文書文字列特定情報から、前記選択された可変長連鎖文書文字列の存在する文書文字列を特定する段階と、(k) 前記選択された可変長連鎖文書文字列の存在する文書文字列と前記可変長連鎖検索文字列を含む検索文字列との文字列類似度を計算する段階と、(l) 前記計算された文字列類似度が前記一定の文字列類似度以上である場合、前記特定された可変長連鎖文書文字列を表示する段階と、を含む方法。
FI (2件):
G06F 15/403 350 C ,  G06F 15/40 370 A

前のページに戻る