Pat
J-GLOBAL ID:200903098038200106

Webページから時系列データを生成する方法及び装置

Inventor:
Applicant, Patent owner:
Agent (8): 鈴江 武彦 ,  河野 哲 ,  中村 誠 ,  蔵田 昌俊 ,  峰 隆司 ,  福原 淑弘 ,  村松 貞男 ,  橋本 良郎
Gazette classification:公開公報
Application number (International application number):2005153975
Publication number (International publication number):2006331089
Application date: May. 26, 2005
Publication date: Dec. 07, 2006
Summary:
【課題】利用者が注目する議論を含むWebページを収集し、収集されたWebページに含まれている議論を関連付けて整理した時系列データを生成可能とする。【解決手段】利用者指定の収集条件に適合するWebページを収集する(S2)。収集されたページの集合を当該ページのURL情報に基づいて複数のクラスタに分割する(S7)。分割されたクラスタごとに、当該クラスタに含まれているページから日時表現を抽出し、抽出された日時表現に基づいて、クラスタごとに、当該クラスタを代表する日時表現形式を決定する(S9,S10)。クラスタごとに決定された日時表現形式に基づいて、当該クラスタに含まれているページを複数のアイテムに分割する(S11)。分割されたアイテムを、当該アイテムに対応する日時表現に基づいて時間の順序に従ってクラスタごとに並べ替えることにより、当該クラスタごとに時系列データを生成する(S13)。【選択図】 図2
Claim (excerpt):
Webページから時系列データを生成する方法において、 利用者によって指定された収集条件に適合するWebページを複数のWebサイトから収集してストレージ装置に格納するステップと、 前記ストレージ装置に格納されているWebページの集合を当該WebページのURL情報に基づいて複数のクラスタに分割するステップと、 前記クラスタごとに、当該クラスタに含まれているWebページから日時表現を抽出するステップと、 前記抽出された日時表現に基づいて、前記クラスタごとに、当該クラスタを代表する日時表現形式を決定するステップと、 前記クラスタごとに決定された日時表現形式に基づいて、当該クラスタに含まれているWebページを当該日時表現形式の日時表現が出現する箇所を基準として複数のアイテムに分割するステップと、 前記分割されたアイテムを、当該アイテムに対応する日時表現に基づいて時間の順序に従って前記クラスタごとに並べ替えることにより、前記クラスタごとに時系列データを生成するステップと を具備することを特徴とするWebページから時系列データを生成する方法。
IPC (1):
G06F 17/30
FI (2):
G06F17/30 210D ,  G06F17/30 350C
F-Term (2):
5B075NR12 ,  5B075QM05
Patent cited by the Patent:
Cited by applicant (4)
Show all
Cited by examiner (2)
Article cited by the Patent:
Cited by examiner (1)

Return to Previous Page