特許
J-GLOBAL ID:200903013646444535

情報検索方法、情報検索装置及び情報検索プログラムを格納する記憶媒体

発明者:
出願人/特許権者:
代理人 (1件): 合田 潔 (外2名)
公報種別:公開公報
出願番号(国際出願番号):特願平8-095704
公開番号(公開出願番号):特開平9-293078
出願日: 1996年04月17日
公開日(公表日): 1997年11月11日
要約:
【要約】【課題】 語彙情報・文法情報を使用せず新語やフレーズに対応し、ユーザの漠然とした文書検索の要求により文書検索を行うシステム及び方法を提供する。【解決手段】 入力文書907から、特徴文字列が抽出され、その特徴文字列を使用して、類似検索が実行される。特徴文字列の抽出は、入力文書907中に出現する出現頻度と、検索の対象となる文書集合909中に出現する出現頻度の対比から、文字列の特徴量を計算し、これを評価することによって行われる。そして、抽出された特徴文字列が検索に使用される。検索で見つかった文書を評価して評価順に並べかえる。各特徴文字列の入力文章中での出現頻度を重みとして、重みの大きい特徴文字列が多数回出現する文書ほど評価が高くなるように、文書の類似度を評価する。
請求項(抜粋):
記憶媒体に格納された比較文書を検索できるコンピュータ・システムにおいて、前記コンピュータ・システムに入力された入力文書に含まれる特徴文字列を特定する方法であって、(a) 前記比較文書から抽出された部分比較文書文字列が存在する前記比較文書中の位置情報を前記部分比較文書文字列と関連付けて管理する段階と、(b) 前記入力文書から、部分入力文字列を抽出して、候補文字列とする段階と、(c) 前記候補文字列の一部と、一定の類似度以上で一致する部分比較文書文字列を特定する段階と、(d) 前記一定の類似度以上で一致する部分比較文書文字列に関連付けられた位置情報を特定する段階と、(e) 前記候補文字列の一部が前記入力文書中に出現する出現頻度情報と、前記位置情報を対比して、前記候補文字列の特徴量を評価することにより前記候補文字列を特徴文字列と認定する段階と、を含む方法。
FI (3件):
G06F 15/403 350 C ,  G06F 15/40 370 A ,  G06F 15/401 310 A

前のページに戻る