特許
J-GLOBAL ID:200903098038200106
Webページから時系列データを生成する方法及び装置
発明者:
,
出願人/特許権者:
代理人 (8件):
鈴江 武彦
, 河野 哲
, 中村 誠
, 蔵田 昌俊
, 峰 隆司
, 福原 淑弘
, 村松 貞男
, 橋本 良郎
公報種別:公開公報
出願番号(国際出願番号):特願2005-153975
公開番号(公開出願番号):特開2006-331089
出願日: 2005年05月26日
公開日(公表日): 2006年12月07日
要約:
【課題】利用者が注目する議論を含むWebページを収集し、収集されたWebページに含まれている議論を関連付けて整理した時系列データを生成可能とする。【解決手段】利用者指定の収集条件に適合するWebページを収集する(S2)。収集されたページの集合を当該ページのURL情報に基づいて複数のクラスタに分割する(S7)。分割されたクラスタごとに、当該クラスタに含まれているページから日時表現を抽出し、抽出された日時表現に基づいて、クラスタごとに、当該クラスタを代表する日時表現形式を決定する(S9,S10)。クラスタごとに決定された日時表現形式に基づいて、当該クラスタに含まれているページを複数のアイテムに分割する(S11)。分割されたアイテムを、当該アイテムに対応する日時表現に基づいて時間の順序に従ってクラスタごとに並べ替えることにより、当該クラスタごとに時系列データを生成する(S13)。【選択図】 図2
請求項(抜粋):
Webページから時系列データを生成する方法において、
利用者によって指定された収集条件に適合するWebページを複数のWebサイトから収集してストレージ装置に格納するステップと、
前記ストレージ装置に格納されているWebページの集合を当該WebページのURL情報に基づいて複数のクラスタに分割するステップと、
前記クラスタごとに、当該クラスタに含まれているWebページから日時表現を抽出するステップと、
前記抽出された日時表現に基づいて、前記クラスタごとに、当該クラスタを代表する日時表現形式を決定するステップと、
前記クラスタごとに決定された日時表現形式に基づいて、当該クラスタに含まれているWebページを当該日時表現形式の日時表現が出現する箇所を基準として複数のアイテムに分割するステップと、
前記分割されたアイテムを、当該アイテムに対応する日時表現に基づいて時間の順序に従って前記クラスタごとに並べ替えることにより、前記クラスタごとに時系列データを生成するステップと
を具備することを特徴とするWebページから時系列データを生成する方法。
IPC (1件):
FI (2件):
G06F17/30 210D
, G06F17/30 350C
Fターム (2件):
引用特許: