特許
J-GLOBAL ID:200903072511863143

類似構造ファイル収集装置とプログラム、記憶媒体、及び類似構造ファイル収集方法

発明者:
出願人/特許権者:
代理人 (1件): 林 靖
公報種別:公開公報
出願番号(国際出願番号):特願2003-101944
公開番号(公開出願番号):特開2004-310360
出願日: 2003年04月04日
公開日(公表日): 2004年11月04日
要約:
【課題】本発明は、構造の類似するウェブページを簡単に収集することができる類似構造ファイル収集装置とその収集方法等を提供することを目的とする。【解決手段】本発明は、複数のウェブページ情報を対象とし、記述されたそれぞれのテキストデータから所定文字数の文字列を抽出し、その出現頻度をカウントする出現頻度調査手段14と、すべての出現頻度の中から高頻出文字列として評価するため所定の割合以上の出現頻度で出現する文字列の文字数をカウントする文字数カウント手段16と、各ウェブページ情報でカウントされた文字数を比較して同一クラスタに構成できるウェブページ情報同士を統合することによって複数のウェブページ情報群に分ける分割管理手段17と、この複数のウェブページ情報群の中から母数が少ないウェブページ情報群をノイズクラスタとして除去するノイズクラスタ除去手段22を備えたことを特徴とする。【選択図】 図1
請求項(抜粋):
複数のウェブページ情報を対象とし、マークアップ言語で記述されたそれぞれのテキストデータから所定の文字数の文字列を抽出し、その出現頻度をカウントする出現頻度調査手段と、 前記出現頻度調査手段がカウントしたすべての出現頻度の中から高頻出文字列として評価するため所定の割合以上の出現頻度で出現する文字列の文字数をカウントする文字数カウント手段と、 各ウェブページ情報でカウントされた文字数を比較して同一クラスタに構成できるウェブページ情報同士を統合することによって、対象の全ウェブページ情報を複数のウェブページ情報群に分ける分割管理手段と、 前記分割管理手段によって分けられた複数のウェブページ情報群の中から母数が少ないウェブページ情報群をノイズクラスタとして除去するノイズクラスタ除去手段を備え、 複数のウェブページ情報の中から類似構造のウェブページ情報を抽出することを特徴とする類似構造ファイル収集装置。
IPC (2件):
G06F17/30 ,  G06F12/00
FI (3件):
G06F17/30 210D ,  G06F17/30 170A ,  G06F12/00 546P
Fターム (8件):
5B075ND03 ,  5B075ND04 ,  5B075NR02 ,  5B075NR12 ,  5B075UU06 ,  5B075UU19 ,  5B082GA03 ,  5B082GA06

前のページに戻る