特許
J-GLOBAL ID:201203006858968924

分散型文書検索装置、分散型文書検索方法および分散型文書検索プログラム

発明者:
出願人/特許権者:
代理人 (4件): 小林 博通 ,  鵜澤 英久 ,  山口 幸二 ,  橋本 剛
公報種別:公開公報
出願番号(国際出願番号):特願2010-165533
公開番号(公開出願番号):特開2012-027677
出願日: 2010年07月23日
公開日(公表日): 2012年02月09日
要約:
【課題】転置インデクスへの参照回数を減らして検索時の計算負荷を軽減することができる分散型文書検索装置を提供する。【解決手段】複数の転置インデクスTIC〜TIFに対して、転置インデクスが担当する文書中に2つの語が句として出現するか否かを記録した複数の句シグネチャA〜Fを木構造状に配置し、転置インデクスが担当する文書中に2つの語どうしが設定された距離だけ離れて出現するか否かを記録した複数の近接シグネチャグループgA〜gFを木構造状に配置し、句検索の場合、2つの語が句として出現するか否かを上位の句シグネチャA,Bに問合せ、出現する場合のみ下位のシグネチャにも問合せ、出現しない場合は問い合わせないことによって、検索処理の負荷軽減を図った。【選択図】図1
請求項(抜粋):
分散された文書集合が、各担当する文書集合として、単語の出現位置情報とともに格納される複数の転置インデクスと、前記複数の転置インデクスに対して木構造状に配置された複数の句シグネチャと、前記複数の転置インデクスに対して木構造状に配置された複数の近接シグネチャと、入力された検索語を含む文書を検索する検索手段と、前記検索手段の検索結果を統合する検索結果統合手段とを備え、 前記複数の句シグネチャのうち、上位の句シグネチャには、下位の複数個の句シグネチャの配下の転置インデクスのいずれかに、当該転置インデクスが担当する文書中に2つの語が句として出現するか否かが記録され、下位の句シグネチャには、転置インデクスのいずれかに、当該転置インデクスが担当する文書中に2つの語が句として出現するか否かが記録され、 前記複数の近接シグネチャのうち、上位の近接シグネチャには、下位の複数個の近接シグネチャの配下の転置インデクスのいずれかに、当該転置インデクスが担当する文書中に2つの語どうしが設定された距離だけ離れて出現するか否かが記録され、下位の近接シグネチャには、転置インデクスのいずれかに、当該転置インデクスが担当する文書中に2つの語どうしが設定された距離だけ離れて出現するか否かが記録され、 入力された検索語について、検索語を構成する2つの語が句として出現するか否かを検索するときに、前記検索手段は、前記複数の句シグネチャのうち、上位の句シグネチャについて、当該句シグネチャの配下の転置インデクスに前記2つの語が句として出現するか否かを調査し、出現しない場合は下位の句シグネチャの調査を行なわず、 出現する場合は下位の句シグネチャについて前記調査を行い、当該下位の句シグネチャに前記2つの語が句として出現する場合にその句シグネチャの配下の転置インデクスを用いて検索を行い、前記検索結果統合手段は、前記検索結果を統合して出力し、 入力された検索語について、検索語を構成する2つの語どうしが設定された距離だけ離れて出現するか否かを検索するときに、前記検索手段は、前記複数の近接シグネチャのうち、上位の近接シグネチャについて、当該近接シグネチャの配下の転置インデクスに前記2つの語どうしが設定された距離だけ離れて出現するか否かを調査し、出現しない場合は下位の近接シグネチャの調査を行なわず、 出現する場合は下位の近接シグネチャについて前記調査を行い、当該下位の近接シグネチャに前記2つの語どうしが設定された距離だけ離れて出現する場合にその近接シグネチャの配下の転置インデクスを用いて検索を行い、前記検索結果統合手段は、前記検索結果を統合して出力することを特徴とする分散型文書検索装置。
IPC (1件):
G06F 17/30
FI (4件):
G06F17/30 414B ,  G06F17/30 419A ,  G06F17/30 170A ,  G06F17/30 210D
Fターム (7件):
5B075ND03 ,  5B075NK02 ,  5B075NK43 ,  5B075NK49 ,  5B075NR02 ,  5B075NR12 ,  5B075UU06
引用文献:
出願人引用 (1件)
  • 階層型Bloom Filterを用いた分散ファイル管理

前のページに戻る