Pat
J-GLOBAL ID:200903073553366634
フラグメントの同一性判定方法およびコンピュータプログラム
Inventor:
Applicant, Patent owner:
Agent (1):
佐藤 壽見子
Gazette classification:公開公報
Application number (International application number):2005313518
Publication number (International publication number):2007122398
Application date: Oct. 27, 2005
Publication date: May. 17, 2007
Summary:
【課題】URLが異なるWebページについて、ページ内容の全部又は一部が同一か否かを判定する手段としてフラグメントという概念を導入し、このフラグメントの同一性を判定する方法を提供する。【解決手段】内容の異同を判定したいWebページのURLリストを入力情報とし、各URLを指定して該当ページのHTML文書を取得し、各HTML文書から抽出したフラグメントのそれぞれを3つのサブフラグメントに分割し、この3サブフラグメントとURL文字列とを判定要素とすることによって、異なるフラグメント同士の同一性の有無を判定する。判定結果に基づいて、正規化されたフラグメント情報を生成する。この正規化フラグメント情報は、Webページの全部又は一部の内容の異同を推定するために利用することができる。【選択図】図1
Claim (excerpt):
インターネットと接続可能なコンピュータが、
インターネット上で公開されているWebページの任意個数のURLを入力情報とするステップと、
前記の各URLに対応するWebページのHTML文書を取得するステップと、
取得した各HTML文書から、リンク要素周辺の文字情報であるフラグメントを抽出するステップと、
抽出した各フラグメントを、リンク要素直前の前フラグメント、リンク要素内部の中フラグメント、およびリンク要素直後の後フラグメントに3分割するとともに、これらの分割された3種類のサブフラグメントに、該フラグメントを含むHTML文書に対応するURLの文字列を加えた4つを判定要素とするステップと、
或るフラグメントの4つの判定要素のそれぞれについて、他のフラグメントの対応する判定要素との類似度を算出するステップと
算出された4つの類似度を総合的に評価した結果に基づいて、フラグメント同士の同一性の有無を判定するステップと、
前記同一性判定結果に基づいて、正規化されたフラグメント情報を生成し、出力するステップ、
とからなることを特徴とするフラグメントの同一性判定方法。
IPC (2):
FI (3):
G06F17/30 350C
, G06F17/30 140
, G06F13/00 540F
F-Term (2):
Return to Previous Page