特許
J-GLOBAL ID:200903034327991121
特徴文字列抽出方法および装置とこれを用いた類似文書検索方法および装置並びに特徴文字列抽出プログラムを格納した記憶媒体および類似文書検索プログラムを格納した記憶媒体
発明者:
,
,
,
,
出願人/特許権者:
代理人 (1件):
小川 勝男
公報種別:公開公報
出願番号(国際出願番号):特願平10-148721
公開番号(公開出願番号):特開平11-338883
出願日: 1998年05月29日
公開日(公表日): 1999年12月10日
要約:
【要約】【課題】本発明の課題は、単語辞書を用いずに文書に記述された内容の特徴を抽出する方法と、この方法を用いて、高速で高精度な類似文書検索システムを提供することである。【解決手段】テキストデータベース中のテキスト150に存在する文字列のそのテキスト150における単語の境界に出現する確率を出現確率ファイル152として格納するステップと、テキスト150に存在する文字列の出現回数を出現回数ファイル153として格納するステップと、出現確率ファイル152を用いてユーザが指定したテキストから特徴文字列を抽出するステップと、ユーザが指定したテキストにおける特徴文字列の出現回数を計数するステップとを有し、出現回数ファイル153とユーザが指定したテキストにおける出現回数を用いてユーザが指定したテキストに対する類似度を算出する。
請求項(抜粋):
テキストを含む文書から特徴を表す文字列(特徴文字列と呼ぶ)を抽出する特徴文字列抽出方法において、単語間の区切れ目を境界として単語の候補となる文字列を上記テキストから抽出する文字列抽出ステップと、上記文字列抽出ステップで抽出された文字列中の長さが n( nは 1以上の整数)の連続する文字列(n-gramと呼ぶ)に関するテキストデータベース内での出現回数を参照し、該出現回数が最大のn-gramを特徴文字列として抽出する特徴n-gram抽出ステップとを有することを特徴とした特徴文字列抽出方法。
IPC (2件):
FI (3件):
G06F 15/401 310 A
, G06F 15/38 E
, G06F 15/40 370 A
前のページに戻る