特許
J-GLOBAL ID:200903073553366634
フラグメントの同一性判定方法およびコンピュータプログラム
発明者:
出願人/特許権者:
代理人 (1件):
佐藤 壽見子
公報種別:公開公報
出願番号(国際出願番号):特願2005-313518
公開番号(公開出願番号):特開2007-122398
出願日: 2005年10月27日
公開日(公表日): 2007年05月17日
要約:
【課題】URLが異なるWebページについて、ページ内容の全部又は一部が同一か否かを判定する手段としてフラグメントという概念を導入し、このフラグメントの同一性を判定する方法を提供する。【解決手段】内容の異同を判定したいWebページのURLリストを入力情報とし、各URLを指定して該当ページのHTML文書を取得し、各HTML文書から抽出したフラグメントのそれぞれを3つのサブフラグメントに分割し、この3サブフラグメントとURL文字列とを判定要素とすることによって、異なるフラグメント同士の同一性の有無を判定する。判定結果に基づいて、正規化されたフラグメント情報を生成する。この正規化フラグメント情報は、Webページの全部又は一部の内容の異同を推定するために利用することができる。【選択図】図1
請求項(抜粋):
インターネットと接続可能なコンピュータが、
インターネット上で公開されているWebページの任意個数のURLを入力情報とするステップと、
前記の各URLに対応するWebページのHTML文書を取得するステップと、
取得した各HTML文書から、リンク要素周辺の文字情報であるフラグメントを抽出するステップと、
抽出した各フラグメントを、リンク要素直前の前フラグメント、リンク要素内部の中フラグメント、およびリンク要素直後の後フラグメントに3分割するとともに、これらの分割された3種類のサブフラグメントに、該フラグメントを含むHTML文書に対応するURLの文字列を加えた4つを判定要素とするステップと、
或るフラグメントの4つの判定要素のそれぞれについて、他のフラグメントの対応する判定要素との類似度を算出するステップと
算出された4つの類似度を総合的に評価した結果に基づいて、フラグメント同士の同一性の有無を判定するステップと、
前記同一性判定結果に基づいて、正規化されたフラグメント情報を生成し、出力するステップ、
とからなることを特徴とするフラグメントの同一性判定方法。
IPC (2件):
FI (3件):
G06F17/30 350C
, G06F17/30 140
, G06F13/00 540F
Fターム (2件):
前のページに戻る