特許
J-GLOBAL ID:200903093261712184

Webサイトのトップページ推定装置、トップページ推定方法、この方法のプログラム、このプログラムを記録した記録媒体

発明者:
出願人/特許権者:
代理人 (1件): 志賀 富士弥 (外2名)
公報種別:公開公報
出願番号(国際出願番号):特願2001-389447
公開番号(公開出願番号):特開2003-186731
出願日: 2001年12月21日
公開日(公表日): 2003年07月04日
要約:
【要約】【課題】 Webサイトのトップページを適確に推定し、このトップページから検索目的に適合したWebサイト単位の情報検索ができるようにする。【解決手段】 Webページ集合の各ページが属する全てのサーバ名を抽出し(S1)、各ページのURLとサーバ名とディレクトリ階層とメタ情報を抽出し(S2)、各ページのページ分類木を利用してページタイプへの分類尤度を抽出し(S3)、各サーバ毎に、ディレクトリ階層が0かつ当該階層に位置するファイル名をもつものをトップページと推定し(S4)、トップページがないときはトップページタイプ分類尤度でトップページが存在するディレクトリ階層を決定し(S5)、このディレクトリ階層で下位階層にファイルが存在し、ページタイプへの分類尤度の和が最大のページをトップページとして各ディレクトリ階層毎に決定し(S6)、トップページが存在しないときは1段階下のディレクトリ階層でトップページ分類尤度が閾値以上のページをトップページとする(7)。
請求項(抜粋):
WWW上のWebページ集合を収集し、このWebページ集合からWebサイトのトップページを推定する装置であって、前記ページ集合の各ページが属する全てのサーバ名を抽出しておく所属サーバ名抽出手段と、前記ページ集合の各ページについて、そのURLとサーバ名とディレクトリ階層と表層知識に基づくメタ情報を抽出しておくページ情報抽出手段と、前記ページ集合の各ページのページ分類木を獲得し、このページ分類木を基に、前記ページ集合の各ページのページタイプへの分類尤度を抽出しておくページ分類尤度抽出手段と、前記ページ集合の各ページが所属する各サーバ毎に、以下の第1の手段〜第4の手段、・当該サーバに属し、ディレクトリ階層が0かつ当該階層に位置するファイル名をもつページを当該サーバ名におけるトップページと推定する第1の手段と、・前記第1の手段でトップページが存在しなかったサーバについて、トップページタイプ分類尤度を基にトップページが存在するディレクトリ階層を順次下げてトップページが存在するディレクトリ階層を決定する第2の手段と、・前記第2の手段で決定されたディレクトリ階層に所属し、下位階層にファイルが存在するファイル名をもち、前記ページタイプへの分類尤度の和が最大のページをトップページとして各ディレクトリ階層毎に決定する第3の手段と、・前記ディレクトリ階層の1段階下のディレクトリ階層に属し、前記ページタイプのトップページ分類尤度が閾値以上のページをトップページとする第4の手段と、を繰り返すことでトップページを推定することを特徴とするWebサイトのトップページ推定装置。
IPC (2件):
G06F 12/00 546 ,  G06F 17/30 419
FI (2件):
G06F 12/00 546 B ,  G06F 17/30 419 B
Fターム (4件):
5B075NK43 ,  5B075NK44 ,  5B082EA01 ,  5B082HA05
引用特許:
審査官引用 (4件)
全件表示

前のページに戻る