特許
J-GLOBAL ID:200903000013864042

文書検索装置

発明者:
出願人/特許権者:
代理人 (1件): 根本 恵司
公報種別:公開公報
出願番号(国際出願番号):特願2006-111095
公開番号(公開出願番号):特開2007-286742
出願日: 2006年04月13日
公開日(公表日): 2007年11月01日
要約:
【課題】登録文書中の文字列の文字種に応じたn-gramを有するn-gram索引を備えた文書検索装置において、検索文字列が、異なる文字種が交互に現れる場合の検索処理時間を短縮する。【解決手段】テキスト分割手段21は、ユーザによって入力された検索条件に含まれるテキストをn-gramに分割する。n-gram索引22は、登録文書を分割したn-gramの情報を保持する。文字列単位検索手段23は、テキスト分割手段21が検索文字列を分割したn-gramに基づいて、n-gram索引22を参照し、検索文字列を含む文書を検索する。テキスト分割手段21は、テキストをn-gramに分割するときに、各索引単位の先頭1文字の文字種によりその索引単位の長さ(nの値)を決定する。【選択図】 図2
請求項(抜粋):
文字列を1文字ずつ出現位置が異なるn-gramに分割する文字列分割手段と、前記文字列分割手段により分割された登録文書の文字列のn-gramを保持するn-gram索引とを有し、検索文字列を前記文字列分割手段によりn-gramに分割した結果に基づいて前記n-gram索引を参照し、前記検索文字列を含む登録文書を検索する文書検索装置であって、 前記文字列分割手段は、前記登録文書の文字列或いは検索文字列をn-gramに分割するときに先頭1文字の文字種を判断し、その文字種に応じてnの値を決定することを特徴とする文書検索装置。
IPC (1件):
G06F 17/30
FI (2件):
G06F17/30 414B ,  G06F17/30 170A
Fターム (3件):
5B075ND03 ,  5B075NK49 ,  5B075UU06
引用特許:
出願人引用 (2件)
  • 文書検索方法
    公報種別:公開公報   出願番号:特願2001-064404   出願人:株式会社リコー
  • 文書検索装置
    公報種別:公開公報   出願番号:特願平11-126319   出願人:株式会社エヌ・ティ・ティ・データ

前のページに戻る