特許
J-GLOBAL ID:200903054225042045

文書類似度算出装置、クラスタリング装置および文書抽出装置

発明者:
出願人/特許権者:
代理人 (1件): 酒井 宏明
公報種別:公開公報
出願番号(国際出願番号):特願2002-062239
公開番号(公開出願番号):特開2003-263443
出願日: 2002年03月07日
公開日(公表日): 2003年09月19日
要約:
【要約】【課題】 文書サイズに依存することなく精度が高く、しかも絶対値としての文書の類似度を算出し、効率良くクラスタリング、文書抽出を行うこと。【解決手段】 文書集合を入力する入力部11と、文書ベクトルおよび文書に含まれる単語の重要度を用いるtf・idf法により、入力された文書集合における文書間の相対値としての類似度を複数の文書の組み合わせについてそれぞれ算出し、各類似度を正規化により絶対値に変換する正規化部14を備えている。
請求項(抜粋):
文書ベクトルおよび文書に含まれる単語の重要度を用いて文書間の相対値としての類似度を複数の文書の組み合わせについてそれぞれ算出する類似度算出手段と、前記類似度算出手段により算出された各類似度を正規化により絶対値に変換する変換手段と、を備えたことを特徴とする文書類似度算出装置。
IPC (3件):
G06F 17/30 210 ,  G06F 17/30 170 ,  G06F 17/30 350
FI (3件):
G06F 17/30 210 D ,  G06F 17/30 170 A ,  G06F 17/30 350 C
Fターム (5件):
5B075ND03 ,  5B075NR12 ,  5B075NR15 ,  5B075PR06 ,  5B075QM08
引用特許:
出願人引用 (4件)
全件表示
審査官引用 (4件)
全件表示

前のページに戻る