Pat
J-GLOBAL ID:200903078775161978
Webサイトの内部構造推定装置、内部構造推定方法、この方法のプログラム、このプログラムを記録した記録媒体
Inventor:
Applicant, Patent owner:
Agent (1):
志賀 富士弥 (外2名)
Gazette classification:公開公報
Application number (International application number):2001389448
Publication number (International publication number):2003186883
Application date: Dec. 21, 2001
Publication date: Jul. 04, 2003
Summary:
【要約】【課題】 Webサイトの内部構造を適確に推定し、この内部構造を基にして検索目的に適合したWebサイト単位の情報検索できるようにする。【解決手段】 各ページについて、メタ情報を抽出し、かつリンク分類木を利用して各リンクのリンクタイプへの分類尤度を抽出しておき(S1)、各ページのページ分類木を基に各ページのページタイプへの分類尤度を抽出しておき(S2)、親ページ推定処理されていないサーバに属するページ集合を取り出し(S3)、トップページ候補集合を獲得する過程(S4)と、各トップページ候補からリンクタイプ分類尤度を基に親ページを推定する過程(S5,S6)と、親ページが未決のページ集合の中からディレクトリの最も浅い階層に属しかつトップページ尤度等が最大のページをトップページ候補として取り出し、このトップページ候補からリンクタイプ分類尤度を基に親ページを推定する過程(S7,S8)とを繰り返す。
Claim (excerpt):
WWW上のWebページ集合を収集し、このWebページ集合から親ページとそれにリンクしたページをWebサイト単位の内部構造として推定する装置であって、前記ページ集合の各ページおよびリンクについて、表層知識に基づくメタ情報を抽出し、かつリンク分類木を利用して各リンクのリンクタイプへの分類尤度を抽出しておくリンクタイプ分類尤度抽出手段と、前記ページ集合の各ページのページ分類木を獲得し、このページ分類木を基に、前記ページ集合の各ページのページタイプへの分類尤度を抽出しておくページタイプ分類尤度抽出手段と、前記ページ集合が属する全てのサーバについて、親ページ推定処理されていないサーバに属するページ集合を取り出し、以下の第1の手段〜第3の手段、Webサイトのトップページ候補集合を獲得する第1の手段と、前記各トップページ候補を起点とし、前記リンクタイプ分類尤度を基に各ページの親ページを決定する第2の手段と、前記親ページが未決のページ集合の中からディレクトリの最も浅い階層に属しかつ前記ページタイプ分類尤度のトップページ尤度とインデクスページ尤度およびメニューページ尤度の和が最大のページをトップページ候補として取り出し、このトップページ候補から前記リンクタイプ分類尤度を基に親ページを決定する第3の手段と、を繰り返すことで親ページを推定することを特徴とするWebサイトの内部構造推定装置。
IPC (2):
G06F 17/30 180
, G06F 17/30 419
FI (2):
G06F 17/30 180 Z
, G06F 17/30 419 B
F-Term (5):
5B075NK44
, 5B075NR12
, 5B075PQ42
, 5B075PR06
, 5B075QP01
Patent cited by the Patent:
Return to Previous Page