特許
J-GLOBAL ID:200903081250163210

文書間類似度データ計算装置

発明者:
出願人/特許権者:
代理人 (1件): 岩上 昇一 (外1名)
公報種別:公開公報
出願番号(国際出願番号):特願平8-045627
公開番号(公開出願番号):特開平9-218879
出願日: 1996年02月08日
公開日(公表日): 1997年08月19日
要約:
【要約】【課題】文書間類似度データの再計算を高速に行うこと。【解決手段】データ格納手段2は、弧(矢印)と状態(丸印)からなる木構造で表現されるトライ構造を持つ。このトライ構造では、単語の集合を前記弧のラベルとして保持し、1つの最終状態には1つの単語が対応する。また、最終状態は対応する単語を含む文書の格納位置へ弧が張られている。その弧のラベルとして文書中にその単語が出現した回数が保持される。さらに、各最終状態には対応する単語の重要度を表す重みを表すデータが付与されている。類似度データ計算手段3は、類似度データS(di,dj)=[Cij,Mij]を、前記重みおよび前記出現回数を用いて次の計算により求める。Mij=(文書di中に存在する全ての単語の重みの合計)+(文書dj中に存在する全ての単語の重みの合計)Cij=(文書diと文書djに共通して存在する全ての単語の重みの合計)
請求項(抜粋):
文書に含まれる語と文書とを対応づけて格納するとともに、その各語に類似度決定のための語の重要度を示す重みを対応付け、かつ各文書に各語が出現する回数を対応付けて格納するデータ格納手段と、前記データ格納手段に格納された語と文書との対応付け、前記重み、および前記出現回数を参照して、文書間の類似度データを計算する類似度データ計算手段と、前記類似度データ計算手段により得られた文書間の類似度データを格納する類似度データ格納手段とを有することを特徴とする文書間類似度データ計算装置。
FI (2件):
G06F 15/403 350 C ,  G06F 15/40 370 A

前のページに戻る