Pat
J-GLOBAL ID:200903034327991121

特徴文字列抽出方法および装置とこれを用いた類似文書検索方法および装置並びに特徴文字列抽出プログラムを格納した記憶媒体および類似文書検索プログラムを格納した記憶媒体

Inventor:
Applicant, Patent owner:
Agent (1): 小川 勝男
Gazette classification:公開公報
Application number (International application number):1998148721
Publication number (International publication number):1999338883
Application date: May. 29, 1998
Publication date: Dec. 10, 1999
Summary:
【要約】【課題】本発明の課題は、単語辞書を用いずに文書に記述された内容の特徴を抽出する方法と、この方法を用いて、高速で高精度な類似文書検索システムを提供することである。【解決手段】テキストデータベース中のテキスト150に存在する文字列のそのテキスト150における単語の境界に出現する確率を出現確率ファイル152として格納するステップと、テキスト150に存在する文字列の出現回数を出現回数ファイル153として格納するステップと、出現確率ファイル152を用いてユーザが指定したテキストから特徴文字列を抽出するステップと、ユーザが指定したテキストにおける特徴文字列の出現回数を計数するステップとを有し、出現回数ファイル153とユーザが指定したテキストにおける出現回数を用いてユーザが指定したテキストに対する類似度を算出する。
Claim (excerpt):
テキストを含む文書から特徴を表す文字列(特徴文字列と呼ぶ)を抽出する特徴文字列抽出方法において、単語間の区切れ目を境界として単語の候補となる文字列を上記テキストから抽出する文字列抽出ステップと、上記文字列抽出ステップで抽出された文字列中の長さが n( nは 1以上の整数)の連続する文字列(n-gramと呼ぶ)に関するテキストデータベース内での出現回数を参照し、該出現回数が最大のn-gramを特徴文字列として抽出する特徴n-gram抽出ステップとを有することを特徴とした特徴文字列抽出方法。
IPC (2):
G06F 17/30 ,  G06F 17/27
FI (3):
G06F 15/401 310 A ,  G06F 15/38 E ,  G06F 15/40 370 A

Return to Previous Page