特許
J-GLOBAL ID:200903006371223553

文書検索方法及び装置

発明者:
出願人/特許権者:
代理人 (1件): 小川 勝男
公報種別:公開公報
出願番号(国際出願番号):特願平3-342695
公開番号(公開出願番号):特開平5-174064
出願日: 1991年12月25日
公開日(公表日): 1993年07月13日
要約:
【要約】【目的】実用規模のテキストデータベースを対象とした場合でも,実用上許容しうる十分な検索時間で検索結果が得られる高速なフルテキストサーチ方法を実現するために,与えられた検索タームから十分な絞り込みを行なうことのできる文字成分表の作成方法と検索方法を持つ階層プリサーチ式の文書検索方法と,これを用いた検索装置を提供する。【構成】テキストデータを,ある長さnの文字列単位で読み出し,各文字列に対応する文字成分表のエントリに文字列が存在したことを表す情報を記録する連接文字成分表作成手段(204)と,検索タームを長さnの文字列に分割し,各文字列に対応する連接文字成分表のエントリに全て存在情報が記録されている文書を出力する文字成分表サーチ手段(207)を設け,テキストそのものを検索する以前に階層的に文字成分表サーチを行うことにより検索対象を絞り込み,フルテキストサーチを高速に行う。
請求項(抜粋):
文書情報を文字コードデータとして蓄積したテキストデータベースを対象として,検索者が指定したキーワードを含む文書をその本文内容を参照して検索する文書検索方法において,該テキストデータベースに文書を登録する際,該登録文書の本文文字列をひらがな,カタカナ,漢字,及び英数字等の少なくとも1種類の文字種で分割し,分割した各部分文字列の間で相互に文字列の包含関係を調べ,他の文字列に含まれる文字列を排除した部分文字列の集合からなる凝縮本文を作成するステップと,使用可能な全ての2文字以上の文字列の情報を文書単位に用意しておき,該文書中で使用されている文字列については使用されていることを表す情報,使用されていない文字列については使用されていないことを表す情報を設定しておく連接文字成分表を作成するステップと,登録対象文書の本文のほかに凝縮本文と連接文字成分表を合わせてテキストデータベースへ登録するステップと,検索時には先ず検索者が指定したキーワード中の全ての2文字以上の文字列について全て使用されているものを探し出す文字成分表サーチステップと,次に該文字成分表サーチで抽出された文書に対する凝縮本文を参照して,検索者が指定したキーワードを構成する部分文字列を含む文書のみを抽出する凝縮本文サーチのステップと、該凝縮本文サーチにより,指定キーワードを含む文書を選び出し,最後に絞り込まれた文書の本文を参照して,キーワード間に付与された位置関係等の検索条件を満たすもののみを抽出する本文サーチのステップを備え,等価的に高速なフルテキストサーチを行うことを特徴とする文書検索方法。
IPC (2件):
G06F 15/40 500 ,  G06F 15/40 530
引用特許:
出願人引用 (1件)
  • 特開平3-229366
審査官引用 (1件)
  • 特開平3-229366

前のページに戻る