特許
J-GLOBAL ID:201103005915178079
データ抽出装置、データ抽出方法、および、データ抽出プログラム
発明者:
,
,
出願人/特許権者:
代理人 (2件):
磯野 道造
, 大石 恵
公報種別:公開公報
出願番号(国際出願番号):特願2010-033528
公開番号(公開出願番号):特開2011-170597
出願日: 2010年02月18日
公開日(公表日): 2011年09月01日
要約:
【課題】ユーザ嗜好解析に有効なWebページの閲覧履歴を高精度で抽出すること。【解決手段】ユーザ端末3とWebサーバ4との間のHTTPリクエストおよびHTTPレスポンスの組であるHTTPペア群が、トラフィック抽出部11で抽出され、レスポンスフィルタ部13でテキストデータの種別として特定された後、トラフィック抽出装置1のリクエストフィルタ部14が、参照元URLが抽出できなかった各HTTPペアと、連続するHTTPペア内に重複する同一参照元URLが出現したとき、その参照元URLを要求URLとするHTTPペアとを特定し、データ抽出部16が、リクエストフィルタ部14の特定したHTTPペアから、キーワードの文字列を抽出する。【選択図】図1
請求項(抜粋):
Webページを要求するためのHTTPリクエストと、そのHTTPリクエストへの応答であるHTTPレスポンスとの組であるHTTPペアからデータを抽出するデータ抽出装置であって、
前記データ抽出装置は、トラフィック抽出部と、レスポンスフィルタ部と、リクエストフィルタ部と、データ抽出部と、記憶手段とを備えており、
前記トラフィック抽出部は、入力されるHTTPペアから、そのHTTPペアの前記HTTPリクエストにテキスト以外の種別を示すキーワードが含まれているHTTPペアを除外した残りのHTTPペアを抽出し、
前記レスポンスフィルタ部は、前記トラフィック抽出部が抽出したHTTPペアから、そのHTTPペアの前記HTTPレスポンスにテキストの種別を示すキーワードが含まれているHTTPペアを抽出し、
前記リクエストフィルタ部は、前記レスポンスフィルタ部が抽出した各HTTPペアから、そのHTTPペアの前記HTTPリクエストに含まれるWebページの所在を示す要求URLと、そのWebページの参照元であるWebページの所在を示す参照元URLとを抽出し、
その抽出処理において、参照元URLが抽出できなかった各HTTPペアと、
連続するHTTPペア内に重複する同一参照元URLが出現したとき、その参照元URLと一致する前記要求URLを含むHTTPペア群のうちの先頭のHTTPペアとを特定し、
前記データ抽出部は、前記リクエストフィルタ部が特定したHTTPペアから、キーワードの文字列を抽出して、前記記憶手段に記憶することを特徴とする
データ抽出装置。
IPC (2件):
FI (3件):
G06F17/30 340B
, G06F17/30 210A
, G06F13/00 540R
Fターム (9件):
5B075NK31
, 5B075PR03
, 5B084AA01
, 5B084AA11
, 5B084AB04
, 5B084AB30
, 5B084BA05
, 5B084BB15
, 5B084CD05
引用特許:
引用文献:
前のページに戻る