特許
J-GLOBAL ID:200903025481830395

構造化文書検索方法

発明者:
出願人/特許権者:
代理人 (1件): 笹岡 茂 (外1名)
公報種別:公開公報
出願番号(国際出願番号):特願平7-161397
公開番号(公開出願番号):特開平8-329116
出願日: 1995年06月05日
公開日(公表日): 1996年12月13日
要約:
【要約】【目的】 構造を持つ文書の大規模情報検索システムにおいて、検索ノイズの少ない文字成分表を実用的容量で提供し、効率的な文書構造指定検索を実現する。【構成】 登録する各文書について、テキストデータにおける文字の出現状況を記述した文字成分表を作成し、予め定められた文書構造名に従って文書構造を認識し、構造毎にテキストデータを分割し、出現する文字毎に各文字が出現する文書構造に対応する特定のビット位置に1を立て、文字毎の出現文書構造位置を記述した構造ビット列を格納し、ユーザより検索文字列として“極限作業”、文書構造として“発明の名称”OR“請求の範囲”OR“効果”が指定されたとき、“極限作業”で文字成分表サーチを行ない、結果として文書1,7,15,38・・・を得、指定文書構造に基づく指定文書構造ビット列100100001と検索された文書の構造ビット列とのビットANDをとり、検索結果として文書1,7,38・・・を得る。
請求項(抜粋):
文書構造を持つ文書を格納し、ユーザが検索対象の文書構造名と検索文字列を指定して、該当する文書を検索する文書検索システムにおいて、登録する文書のそれぞれについて、文書のテキストデータにおける文字の出現状況を記述した文字成分表を作成するステップと、登録する文書のそれぞれについて、あらかじめ定められた文書構造名に従って文書構造を認識し、構造毎にテキストデータを分割するステップと、登録する文書のそれぞれについて、出現する文字毎に各文字が出現する文書構造に対応する特定のビット位置に特定ビット値を立てることで、文字毎の出現文書構造位置を記述した構造ビット列を格納するステップと、ユーザからの検索対象とする文書構造名と、検索文字列の入力を受けるステップと、ユーザから与えられた検索文字列について、該文字成分表から、検索文字列を構成する文字成分の全てが存在する文書を検索するステップと、該検索されたそれぞれの文書毎に、検索文字列の各文字に対応する構造ビット列を読み出して、ユーザが指定する文書構造のビット位置が特定ビット値となっている文書を抽出するステップとからなり、ユーザが指定する文書構造に検索文字列が含まれている文書を検索することを特徴とする構造化文書検索方法。
IPC (2件):
G06F 17/30 ,  G06F 17/21
FI (3件):
G06F 15/403 350 A ,  G06F 15/20 590 E ,  G06F 15/40 370 A
引用特許:
出願人引用 (7件)
  • 特開平4-274557
  • 文書検索方法及び装置
    公報種別:公開公報   出願番号:特願平3-342695   出願人:株式会社日立製作所
  • 文書検索方法及び装置
    公報種別:公開公報   出願番号:特願平6-133810   出願人:株式会社日立製作所
全件表示

前のページに戻る