特許
J-GLOBAL ID:201603016912605889

改善された類似文書検出方法、装置、及びコンピュータ読み取り可能な記録媒体

発明者:
出願人/特許権者:
代理人 (1件): 特許業務法人高橋・林アンドパートナーズ
公報種別:特許公報
出願番号(国際出願番号):特願2012-063358
公開番号(公開出願番号):特開2012-234522
特許番号:特許第6017155号
出願日: 2012年03月21日
公開日(公表日): 2012年11月29日
請求項(抜粋):
【請求項1】エンティティ抽出手段、加重値計算手段、及び類似文書検出手段を含む類似文書検出装置において行われるコンピュータ・ソフトウエアによる情報処理方法であって、 前記エンティティ抽出手段が、複数のウェブ文書それぞれからエンティティ(entity)及び重要度寄与要素を算出し、 前記加重値計算手段が、前記算出された重要度寄与要素に基づいて各エンティティに対する加重値を計算し、 前記類似文書検出手段が、前記算出された加重値に基づいて前記複数のウェブ文書が類似文書であるか否かを検出し、 前記類似文書であるか否かを検出することは、 前記複数のウェブ文書それぞれに含まれる各エンティティのハッシュ値を抽出し、抽出した各ハッシュ値に前記エンティティの加重値を適用して前記複数のウェブ文書それぞれの特性指数を計算し、 前記計算されたそれぞれの特性指数に基づいて前記複数のウェブ文書が類似文書であるか否かを検出することを含むことを特徴とする改善された類似文書検出方法。
IPC (1件):
G06F 17/30 ( 200 6.01)
FI (2件):
G06F 17/30 210 D ,  G06F 17/30 170 A
引用特許:
出願人引用 (3件) 審査官引用 (2件)
引用文献:
出願人引用 (1件)
  • The Strategy on Replicate and Similar Web Collections' Detecting and Clustering

前のページに戻る