特許
J-GLOBAL ID:200903005519989554

文書検索方法及び装置

発明者:
出願人/特許権者:
代理人 (1件): 笹岡 茂 (外1名)
公報種別:公開公報
出願番号(国際出願番号):特願平6-133810
公開番号(公開出願番号):特開平7-319920
出願日: 1994年05月24日
公開日(公表日): 1995年12月08日
要約:
【要約】【目的】 英語などの文字種が少ない表音文字によって構成される文書を対象とした場合に、与えられた検索タームから十分な絞り込みを行うことのできる連接文字成分表サーチ手段により等価的に高速なフルテキストサーチを実現する。【構成】 テキストデータを単語に分割し、その前後に特殊文字を付加し、付加した単語からm文字おきにn文字の文字列を抽出し、各文字列に対応する文字成分表のエントリに文字列が存在することを表す情報を記録する連接文字成分表作成登録手段と、検索タームの前後に特殊文字を付加し、付加した検索タームからm文字おきにn文字の文字列を抽出し、その文字列に対応するビットリストのビット毎にAND演算を行う連接文字成分表サーチ手段を設け、テキストを検索する前に連接文字成分表サーチを行うことにより検索タームに関連のないテキストを除外し、検索対象テキストを絞り込み、高速フルテキストサーチを実現する。
請求項(抜粋):
文書情報を文字コードデータとして蓄積したテキストデータベースを対象として、対象テキストデータから予め定められた形式で部分文字列をすべて抽出し、該部分文字列に対応するエントリに該部分文字列の存在を連接文字成分表として登録する連接文字成分表作成ステップと、検索時に、検索タームから予め定められた形式で検索用部分文字列を抽出し、該検索用部分文字列に対応する前記連接文字成分表のエントリを参照して検索タームを構成する各検索用部分文字列と一致する部分文字列がすべて存在する文書を求める連接文字成分表サーチステップを有し、前記連接文字成分表作成ステップで作成された連接文字成分表を、テキストを検索する前に予め前記連接文字成分表サーチステップでサーチして検索タームに関連のない文書を検索対象からふるい落とすプリサーチ式文書検索方法において、連接文字成分表作成時には、テキストデータからの部分文字列の抽出処理として、該テキストデータから予め定められたm文字(mは1以上の整数)おきに、予め定められたn文字(nは2以上の整数)の文字列をすべて抽出するステップを設け、検索時には、検索タームからの検索用部分文字列の抽出処理として、該検索タームから予め定められたm文字(mは1以上の整数)おきに、予め定められたn文字(nは2以上の整数)の検索用文字列を抽出するステップを設けたことを特徴とする文書検索方法。
FI (2件):
G06F 15/403 340 Z ,  G06F 15/40 370 A
引用特許:
出願人引用 (3件) 審査官引用 (3件)

前のページに戻る