Pat
J-GLOBAL ID:200903077219613081

n-gramを用いた類似文書検索方法

Inventor:
Applicant, Patent owner:
Agent (1): 小川 勝男
Gazette classification:公開公報
Application number (International application number):1997309078
Publication number (International publication number):1999143902
Application date: Nov. 11, 1997
Publication date: May. 28, 1999
Summary:
【要約】【課題】本発明の課題は、日本語のように文字種の多い言語に対しても、高速で高精度な類似文書検索システムを提供することである。【解決手段】テキストデータベース中のテキスト103に存在する特徴文字列のそのテキスト103における出現頻度を出現頻度ファイル104として格納するステップと、ユーザが指定したテキストから特徴文字列を抽出するステップと、ユーザが指定したテキストにおける特徴文字列の出現頻度を計数するステップとを有し、出現頻度ファイル104とユーザが指定したテキストにおける出現頻度を用いてユーザが指定したテキストに対する類似度を算出し、算出された類似度を用いて文書を検索する。
Claim (excerpt):
文字情報をコードデータとして蓄積したテキストデータベースを対象に、ユーザが指定した文書と類似する文書を検索する類似文書検索方法において、ユーザが指定した文書のテキスト(指定テキストと呼ぶ)から所定の文字種の変わり目を境界として文字列を抽出する文字列抽出ステップと、予め定められた一つ以上の文字列の種類に応じて、その中から一つ以上の部分文字列を抽出する検索用部分文字列抽出ステップと、該指定テキストに対する該テキストデータベース中のテキストの類似度を所定の類似度算出式を用いて算出する類似度算出ステップを有することを特徴とした類似文書検索方法。
FI (2):
G06F 15/401 310 A ,  G06F 15/403 350 C
Patent cited by the Patent:
Cited by examiner (4)
Show all

Return to Previous Page