特許
J-GLOBAL ID:200903078775161978
Webサイトの内部構造推定装置、内部構造推定方法、この方法のプログラム、このプログラムを記録した記録媒体
発明者:
出願人/特許権者:
代理人 (1件):
志賀 富士弥 (外2名)
公報種別:公開公報
出願番号(国際出願番号):特願2001-389448
公開番号(公開出願番号):特開2003-186883
出願日: 2001年12月21日
公開日(公表日): 2003年07月04日
要約:
【要約】【課題】 Webサイトの内部構造を適確に推定し、この内部構造を基にして検索目的に適合したWebサイト単位の情報検索できるようにする。【解決手段】 各ページについて、メタ情報を抽出し、かつリンク分類木を利用して各リンクのリンクタイプへの分類尤度を抽出しておき(S1)、各ページのページ分類木を基に各ページのページタイプへの分類尤度を抽出しておき(S2)、親ページ推定処理されていないサーバに属するページ集合を取り出し(S3)、トップページ候補集合を獲得する過程(S4)と、各トップページ候補からリンクタイプ分類尤度を基に親ページを推定する過程(S5,S6)と、親ページが未決のページ集合の中からディレクトリの最も浅い階層に属しかつトップページ尤度等が最大のページをトップページ候補として取り出し、このトップページ候補からリンクタイプ分類尤度を基に親ページを推定する過程(S7,S8)とを繰り返す。
請求項(抜粋):
WWW上のWebページ集合を収集し、このWebページ集合から親ページとそれにリンクしたページをWebサイト単位の内部構造として推定する装置であって、前記ページ集合の各ページおよびリンクについて、表層知識に基づくメタ情報を抽出し、かつリンク分類木を利用して各リンクのリンクタイプへの分類尤度を抽出しておくリンクタイプ分類尤度抽出手段と、前記ページ集合の各ページのページ分類木を獲得し、このページ分類木を基に、前記ページ集合の各ページのページタイプへの分類尤度を抽出しておくページタイプ分類尤度抽出手段と、前記ページ集合が属する全てのサーバについて、親ページ推定処理されていないサーバに属するページ集合を取り出し、以下の第1の手段〜第3の手段、Webサイトのトップページ候補集合を獲得する第1の手段と、前記各トップページ候補を起点とし、前記リンクタイプ分類尤度を基に各ページの親ページを決定する第2の手段と、前記親ページが未決のページ集合の中からディレクトリの最も浅い階層に属しかつ前記ページタイプ分類尤度のトップページ尤度とインデクスページ尤度およびメニューページ尤度の和が最大のページをトップページ候補として取り出し、このトップページ候補から前記リンクタイプ分類尤度を基に親ページを決定する第3の手段と、を繰り返すことで親ページを推定することを特徴とするWebサイトの内部構造推定装置。
IPC (2件):
G06F 17/30 180
, G06F 17/30 419
FI (2件):
G06F 17/30 180 Z
, G06F 17/30 419 B
Fターム (5件):
5B075NK44
, 5B075NR12
, 5B075PQ42
, 5B075PR06
, 5B075QP01
引用特許:
前のページに戻る