n-gramを用いた類似文書検索方法

発明者： , , , ,
出願人/特許権者：
代理人 (1件)：小川勝男
公報種別：公開公報
出願番号（国際出願番号）：特願平9-309078
公開番号（公開出願番号）：特開平11-143902
出願日： 1997年11月11日
公開日（公表日）： 1999年05月28日
要約：

【要約】【課題】本発明の課題は、日本語のように文字種の多い言語に対しても、高速で高精度な類似文書検索システムを提供することである。【解決手段】テキストデータベース中のテキスト103に存在する特徴文字列のそのテキスト103における出現頻度を出現頻度ファイル104として格納するステップと、ユーザが指定したテキストから特徴文字列を抽出するステップと、ユーザが指定したテキストにおける特徴文字列の出現頻度を計数するステップとを有し、出現頻度ファイル104とユーザが指定したテキストにおける出現頻度を用いてユーザが指定したテキストに対する類似度を算出し、算出された類似度を用いて文書を検索する。

請求項（抜粋）：

文字情報をコードデータとして蓄積したテキストデータベースを対象に、ユーザが指定した文書と類似する文書を検索する類似文書検索方法において、ユーザが指定した文書のテキスト(指定テキストと呼ぶ)から所定の文字種の変わり目を境界として文字列を抽出する文字列抽出ステップと、予め定められた一つ以上の文字列の種類に応じて、その中から一つ以上の部分文字列を抽出する検索用部分文字列抽出ステップと、該指定テキストに対する該テキストデータベース中のテキストの類似度を所定の類似度算出式を用いて算出する類似度算出ステップを有することを特徴とした類似文書検索方法。

FI (2件)：

G06F 15/401 310 A , G06F 15/403 350 C

引用特許：

審査官引用 (4件)

類似文書検索方法
公報種別：公開公報出願番号：特願平7-310325 出願人：株式会社日立製作所
漢字を含むテキストの検索方法及び装置
公報種別：公開公報出願番号：特願平7-028993 出願人：富士通株式会社
情報検索方法、情報検索装置及び情報検索プログラムを格納する記憶媒体
公報種別：公開公報出願番号：特願平8-095704 出願人：インターナショナル・ビジネス・マシーンズ・コーポレイション

全件表示

前のページに戻る