特許
J-GLOBAL ID:200903076321998056
類似文書検索装置及び関連キーワード抽出装置
発明者:
出願人/特許権者:
代理人 (1件):
役 昌明 (外3名)
公報種別:公開公報
出願番号(国際出願番号):特願2000-195075
公開番号(公開出願番号):特開2002-014999
出願日: 2000年06月28日
公開日(公表日): 2002年01月18日
要約:
【要約】【課題】 キーワード出現度数から、文書側,キーワード側で独立に重み付き主成分分析を行って特徴ベクトルを得、高精度で頑健な類似文書検索および関連キーワード抽出を実現する。【解決手段】 キーワード出現度数103,文書長105,キーワード重み107の3種のデータを作成した後、文書/キーワード双方のプロファイルベクトル111、109を算出し、それぞれ独立に、文書長,キーワード重みを考慮した重み付き主成分分析112、114を行って各文書/キーワードの特徴ベクトルを求め、検索/抽出条件から算出した特徴ベクトルとの類似度の高い文書/キーワードを求めて表示する。
請求項(抜粋):
N個の文書データを集めた、合計M種類のキーワードを含む、機械処理可能な文書データベースDから、前記文書データベースDに含まれる1つ以上の文書x1,...,xrを検索条件として指定して、前記検索条件の文書群と類似する前記文書データベースD中の文書を検索する装置であって、前記文書データベースD中の各文書dに出現する各キーワードtの出現度数fdtを記録したキーワード出現度数データFを算出するキーワード出現度数算定手段と、前記各文書dの長さldを記録した文書長データLを算出する文書長算定手段と、前記文書データベースD中に出現する、M種類のキーワードについて、各キーワードtの重みwtを記録したキーワード重みデータWを算出するキーワード重み算定手段と、前記各文書dについて、着目文書d中の各キーワードtの相対出現頻度pdtを成分とするM次元の文書プロファイルベクトルPdを算出する文書プロファイルベクトル算定手段と、前記文書データベースD中の文書群の文書プロファイルベクトル集団の主成分分析を実施して、前記各文書dについて、前記文書プロファイルベクトルPdに対応する、固定(K)次元の文書特徴ベクトルUdを求める文書主成分分析手段と、前記文書データベースDに含まれる1つ以上の文書x1,...,xrを検索条件として受け取り、受け取った文書群の文書特徴ベクトルと前記文書データベースD中の各文書dの文書特徴ベクトルとを用いて、前記検索条件と各文書dとの類似度を算定し、類似度の高い文書から、指定された文書数だけ求めて出力する類似文書検索手段とを備えることを特徴とする類似文書検索装置。
IPC (3件):
G06F 17/30 350
, G06F 17/30 170
, G06F 17/30 210
FI (3件):
G06F 17/30 350 C
, G06F 17/30 170 A
, G06F 17/30 210 A
Fターム (8件):
5B075ND03
, 5B075NK31
, 5B075PQ02
, 5B075PQ40
, 5B075PQ74
, 5B075PR04
, 5B075PR06
, 5B075QM08
引用特許: