データ抽出装置、データ抽出方法、および、データ抽出プログラム

発明者： , ,
出願人/特許権者：
代理人 (2件)：磯野道造 , 大石恵
公報種別：公開公報
出願番号（国際出願番号）：特願2010-033528
公開番号（公開出願番号）：特開2011-170597
出願日： 2010年02月18日
公開日（公表日）： 2011年09月01日
要約：

【課題】ユーザ嗜好解析に有効なWebページの閲覧履歴を高精度で抽出すること。【解決手段】ユーザ端末3とWebサーバ4との間のHTTPリクエストおよびHTTPレスポンスの組であるHTTPペア群が、トラフィック抽出部11で抽出され、レスポンスフィルタ部13でテキストデータの種別として特定された後、トラフィック抽出装置1のリクエストフィルタ部14が、参照元URLが抽出できなかった各HTTPペアと、連続するHTTPペア内に重複する同一参照元URLが出現したとき、その参照元URLを要求URLとするHTTPペアとを特定し、データ抽出部16が、リクエストフィルタ部14の特定したHTTPペアから、キーワードの文字列を抽出する。【選択図】図1

請求項（抜粋）：

Webページを要求するためのHTTPリクエストと、そのHTTPリクエストへの応答であるHTTPレスポンスとの組であるHTTPペアからデータを抽出するデータ抽出装置であって、前記データ抽出装置は、トラフィック抽出部と、レスポンスフィルタ部と、リクエストフィルタ部と、データ抽出部と、記憶手段とを備えており、前記トラフィック抽出部は、入力されるHTTPペアから、そのHTTPペアの前記HTTPリクエストにテキスト以外の種別を示すキーワードが含まれているHTTPペアを除外した残りのHTTPペアを抽出し、前記レスポンスフィルタ部は、前記トラフィック抽出部が抽出したHTTPペアから、そのHTTPペアの前記HTTPレスポンスにテキストの種別を示すキーワードが含まれているHTTPペアを抽出し、前記リクエストフィルタ部は、前記レスポンスフィルタ部が抽出した各HTTPペアから、そのHTTPペアの前記HTTPリクエストに含まれるWebページの所在を示す要求URLと、そのWebページの参照元であるWebページの所在を示す参照元URLとを抽出し、その抽出処理において、参照元URLが抽出できなかった各HTTPペアと、連続するHTTPペア内に重複する同一参照元URLが出現したとき、その参照元URLと一致する前記要求URLを含むHTTPペア群のうちの先頭のHTTPペアとを特定し、前記データ抽出部は、前記リクエストフィルタ部が特定したHTTPペアから、キーワードの文字列を抽出して、前記記憶手段に記憶することを特徴とするデータ抽出装置。

IPC (2件)：

G06F 17/30 , G06F 13/00

FI (3件)：

G06F17/30 340B , G06F17/30 210A , G06F13/00 540R

Fターム (9件)：

5B075NK31 , 5B075PR03 , 5B084AA01 , 5B084AA11 , 5B084AB04 , 5B084AB30 , 5B084BA05 , 5B084BB15 , 5B084CD05

引用特許：

審査官引用 (3件)

検索装置及びそのプログラム
公報種別：公開公報出願番号：特願2006-059207 出願人：株式会社データ変換研究所
情報源観測装置および情報源観測方法、ならびに情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体
公報種別：公開公報出願番号：特願平11-305648 出願人：シャープ株式会社
リンク構造を有する情報の検索方法及び登録方法
公報種別：公開公報出願番号：特願平9-241165 出願人：株式会社東芝

引用文献：

審査官引用 (1件)

“嗜好情報解析のためのトラフィック抽出法に関する一検討”

前のページに戻る