特許
J-GLOBAL ID:201103005915178079

データ抽出装置、データ抽出方法、および、データ抽出プログラム

発明者:
出願人/特許権者:
代理人 (2件): 磯野 道造 ,  大石 恵
公報種別:公開公報
出願番号(国際出願番号):特願2010-033528
公開番号(公開出願番号):特開2011-170597
出願日: 2010年02月18日
公開日(公表日): 2011年09月01日
要約:
【課題】ユーザ嗜好解析に有効なWebページの閲覧履歴を高精度で抽出すること。【解決手段】ユーザ端末3とWebサーバ4との間のHTTPリクエストおよびHTTPレスポンスの組であるHTTPペア群が、トラフィック抽出部11で抽出され、レスポンスフィルタ部13でテキストデータの種別として特定された後、トラフィック抽出装置1のリクエストフィルタ部14が、参照元URLが抽出できなかった各HTTPペアと、連続するHTTPペア内に重複する同一参照元URLが出現したとき、その参照元URLを要求URLとするHTTPペアとを特定し、データ抽出部16が、リクエストフィルタ部14の特定したHTTPペアから、キーワードの文字列を抽出する。【選択図】図1
請求項(抜粋):
Webページを要求するためのHTTPリクエストと、そのHTTPリクエストへの応答であるHTTPレスポンスとの組であるHTTPペアからデータを抽出するデータ抽出装置であって、 前記データ抽出装置は、トラフィック抽出部と、レスポンスフィルタ部と、リクエストフィルタ部と、データ抽出部と、記憶手段とを備えており、 前記トラフィック抽出部は、入力されるHTTPペアから、そのHTTPペアの前記HTTPリクエストにテキスト以外の種別を示すキーワードが含まれているHTTPペアを除外した残りのHTTPペアを抽出し、 前記レスポンスフィルタ部は、前記トラフィック抽出部が抽出したHTTPペアから、そのHTTPペアの前記HTTPレスポンスにテキストの種別を示すキーワードが含まれているHTTPペアを抽出し、 前記リクエストフィルタ部は、前記レスポンスフィルタ部が抽出した各HTTPペアから、そのHTTPペアの前記HTTPリクエストに含まれるWebページの所在を示す要求URLと、そのWebページの参照元であるWebページの所在を示す参照元URLとを抽出し、 その抽出処理において、参照元URLが抽出できなかった各HTTPペアと、 連続するHTTPペア内に重複する同一参照元URLが出現したとき、その参照元URLと一致する前記要求URLを含むHTTPペア群のうちの先頭のHTTPペアとを特定し、 前記データ抽出部は、前記リクエストフィルタ部が特定したHTTPペアから、キーワードの文字列を抽出して、前記記憶手段に記憶することを特徴とする データ抽出装置。
IPC (2件):
G06F 17/30 ,  G06F 13/00
FI (3件):
G06F17/30 340B ,  G06F17/30 210A ,  G06F13/00 540R
Fターム (9件):
5B075NK31 ,  5B075PR03 ,  5B084AA01 ,  5B084AA11 ,  5B084AB04 ,  5B084AB30 ,  5B084BA05 ,  5B084BB15 ,  5B084CD05
引用特許:
審査官引用 (3件)
引用文献:
前のページに戻る