Pat
J-GLOBAL ID:200903042446325302

ウェブページ解読システム

Inventor:
Applicant, Patent owner:
Agent (1): 藤村 元彦
Gazette classification:公開公報
Application number (International application number):2000083150
Publication number (International publication number):2001273214
Application date: Mar. 24, 2000
Publication date: Oct. 05, 2001
Summary:
【要約】【課題】 URL(ユニホームリソースロケータ)の記述を有するタグを含むHTMLの文書に対してテキスト部分を正確に抽出することができるWeb(ウェブ)ページ解読システムを提供する。【解決手段】 Webページを構成する基本のソースデータを所定のURLで指定された記憶領域から取り出して記憶手段に書き込み、基本のソースデータ中からURLの記述箇所を含む所定のタグの存在を検出した場合には、その所定のタグ中のURLを検出し、その検出したURLで指定された記憶領域からソースデータを取り出して記憶手段に書き込み、記憶手段に記憶されたソースデータの全てからテキスト部分を抽出する。
Claim (excerpt):
Web(ウェブ)ページを構成するHTML文書のテキスト部分を解読するWebページ解読システムであって、前記Webページを構成する基本のソースデータを所定のURL(ユニホームリソースロケータ)で指定された記憶領域から取り出して記憶手段に書き込む手段と、前記基本のソースデータ中からURLの記述箇所を含む所定のタグの存在を検出するタグ検出手段と、前記所定のタグの存在が検出された場合にはその所定のタグ中のURLを検出するURL検出手段と、前記URL検出手段によって検出されたURLで指定された記憶領域からソースデータを取り出して前記記憶手段に書き込む手段と、前記記憶手段に記憶されたソースデータの全てからテキスト部分を抽出するテキスト抽出手段と、を備えたことを特徴とするウェブページ解読システム。
IPC (4):
G06F 13/00 354 ,  G06F 17/21 501 ,  G06F 17/21 568 ,  G06F 17/21 596
FI (4):
G06F 13/00 354 D ,  G06F 17/21 501 T ,  G06F 17/21 568 A ,  G06F 17/21 596 A
F-Term (17):
5B009QA11 ,  5B009RD03 ,  5B009SA03 ,  5B009SA14 ,  5B009TA11 ,  5B009VA02 ,  5B009VC01 ,  5B089GA11 ,  5B089GB03 ,  5B089HA01 ,  5B089JA22 ,  5B089JB02 ,  5B089KA04 ,  5B089KB07 ,  5B089KC53 ,  5B089KC59 ,  5B089LB13
Patent cited by the Patent:
Cited by examiner (3)

Return to Previous Page