Pat
J-GLOBAL ID:200903042446325302
ウェブページ解読システム
Inventor:
,
,
,
,
,
,
,
Applicant, Patent owner:
,
,
Agent (1):
藤村 元彦
Gazette classification:公開公報
Application number (International application number):2000083150
Publication number (International publication number):2001273214
Application date: Mar. 24, 2000
Publication date: Oct. 05, 2001
Summary:
【要約】【課題】 URL(ユニホームリソースロケータ)の記述を有するタグを含むHTMLの文書に対してテキスト部分を正確に抽出することができるWeb(ウェブ)ページ解読システムを提供する。【解決手段】 Webページを構成する基本のソースデータを所定のURLで指定された記憶領域から取り出して記憶手段に書き込み、基本のソースデータ中からURLの記述箇所を含む所定のタグの存在を検出した場合には、その所定のタグ中のURLを検出し、その検出したURLで指定された記憶領域からソースデータを取り出して記憶手段に書き込み、記憶手段に記憶されたソースデータの全てからテキスト部分を抽出する。
Claim (excerpt):
Web(ウェブ)ページを構成するHTML文書のテキスト部分を解読するWebページ解読システムであって、前記Webページを構成する基本のソースデータを所定のURL(ユニホームリソースロケータ)で指定された記憶領域から取り出して記憶手段に書き込む手段と、前記基本のソースデータ中からURLの記述箇所を含む所定のタグの存在を検出するタグ検出手段と、前記所定のタグの存在が検出された場合にはその所定のタグ中のURLを検出するURL検出手段と、前記URL検出手段によって検出されたURLで指定された記憶領域からソースデータを取り出して前記記憶手段に書き込む手段と、前記記憶手段に記憶されたソースデータの全てからテキスト部分を抽出するテキスト抽出手段と、を備えたことを特徴とするウェブページ解読システム。
IPC (4):
G06F 13/00 354
, G06F 17/21 501
, G06F 17/21 568
, G06F 17/21 596
FI (4):
G06F 13/00 354 D
, G06F 17/21 501 T
, G06F 17/21 568 A
, G06F 17/21 596 A
F-Term (17):
5B009QA11
, 5B009RD03
, 5B009SA03
, 5B009SA14
, 5B009TA11
, 5B009VA02
, 5B009VC01
, 5B089GA11
, 5B089GB03
, 5B089HA01
, 5B089JA22
, 5B089JB02
, 5B089KA04
, 5B089KB07
, 5B089KC53
, 5B089KC59
, 5B089LB13
Patent cited by the Patent:
Cited by examiner (3)
-
音声によるハイパーテキストアクセス装置
Gazette classification:公開公報
Application number:特願平9-125339
Applicant:松下電器産業株式会社
-
情報分類方法及び装置及び情報分類プログラムを格納した記憶媒体
Gazette classification:公開公報
Application number:特願平10-045770
Applicant:日本電信電話株式会社
-
音声ブラウザシステム
Gazette classification:公開公報
Application number:特願平10-048180
Applicant:日本電信電話株式会社, エヌティティエレクトロニクス株式会社
Return to Previous Page