特許
J-GLOBAL ID:200903001770412961

文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体

発明者:
出願人/特許権者:
代理人 (1件): 伊藤 修 (外1名)
公報種別:公開公報
出願番号(国際出願番号):特願平11-030909
公開番号(公開出願番号):特開2000-231563
出願日: 1999年02月09日
公開日(公表日): 2000年08月22日
要約:
【要約】【課題】 指定された検索タームを含む文書を漏れなく検索できる任意語での検索と、単語境界を意識した検索とを使いわけることのできる検索システム。【解決手段】 登録対象文書に対し形態素解析等の単語識別処理を行ない、単語の先頭位置と末尾位置を識別し、識別結果を基に単語境界情報を取得し、登録対象文書から抽出した所定長の部分文字列(n-gram)に対し文書識別情報と該n-gramの文書における出現位置情報と前記単語境界情報を有する検索用インデクスを作成する。そして検索時には、検索タームに対応する検索用インデクスを抽出し、該検索用インデクスに基づき、これらの単語境界情報を用いて単語の境界を意識した単語識別検索(前方一致、後方一致、完全一致検索)と、単語境界情報を用いない単語境界を意識しない任意語検索を高速に実現する。
請求項(抜粋):
予め登録された文書の集合を対象として、指定された文字列を含む文書の検索を行なう文書検索システムにおける文書検索方法であって、登録する文書のテキストデータを対象として単語の抽出処理を行い、該テキストデータ中の単語の先頭位置と末尾位置を識別し、先頭または末尾を示す識別情報をそれぞれ単語先頭文字または末尾文字に付加したテキストデータを生成する単語境界識別ステップと、該生成したテキストデータから所定長の部分文字列(n-gram)を抽出する登録用n-gram抽出ステップと、前記抽出n-gramについて、該テキストデータのテキスト識別情報と該テキストデータにおける出現位置情報を含む文字位置情報を抽出するとともに、前記単語境界識別ステップの識別結果に基づき、該n-gramの先頭文字が単語の先頭位置であった場合には単語の先頭境界識別情報を、また該n-gramの末尾文字が単語の末尾位置であった場合には単語の末尾境界識別情報を抽出し、該抽出n-gramについて抽出した情報を有する該抽出n-gramに対応する検索用インデクスを生成し、記憶する単語境界情報格納型n-gramインデクス作成登録ステップとを有することを特徴とする文書検索方法。
FI (3件):
G06F 15/401 330 Z ,  G06F 15/40 370 A ,  G06F 15/413 310 B
Fターム (8件):
5B075ND03 ,  5B075NK02 ,  5B075NK13 ,  5B075NK48 ,  5B075NR06 ,  5B075PP23 ,  5B075QM01 ,  5B075QM03

前のページに戻る