特許
J-GLOBAL ID:200903075471055463
HTML文書検索システムへのデータ登録システム、方法および記録媒体
発明者:
出願人/特許権者:
代理人 (1件):
京本 直樹 (外2名)
公報種別:公開公報
出願番号(国際出願番号):特願平11-095403
公開番号(公開出願番号):特開2000-293527
出願日: 1999年04月01日
公開日(公表日): 2000年10月20日
要約:
【要約】【課題】 文書検索システムへ効率的なデータ登録を実現し、検索効率を向上させる。【解決手段】 Webロボット20はHTML文書データ21に保存する。データ登録システム10のコード変換処理部11は、日本語文字コードの変換を行い、キーワード抽出部12は、HTML文書を形態素解析してすべての名詞をキーワードとして抽出する。データ比較部13は、過去に保存された保存キーワード14内のキーワードとキーワード抽出部12で抽出されたキーワードとの比較を行う。登録URL決定部15は、文書検索システム30に登録するURL、タイトルを決定し、データ登録部16は、URL、タイトルとキーワード抽出部12で抽出したキーワードとを文書検索システム30に登録する処理を行い、保存キーワード14にも、保存情報として保存する。
請求項(抜粋):
インターネットから採取したHTML文書からURL、およびキーワードを抽出して保存情報として保存し、新たに採取したHTML文書のURLと前記保存情報内のURLとを比較し、一致しなければ、前記新たに採取したHTML文書のURL、およびキーワードを前記保存情報として別に保存し、かつ、文書検索システムに与えるための第1の処理に進み、一致すれば、前記新たに採取したHTML文書から抽出したキーワードとURLが一致した前記保存情報内のキーワードとを比較し、一致しなければ、前記新たに採取したHTML文書のURL、およびキーワードを前記保存情報として別に保存し、かつ、前記文書検索システムに与えるための第2の処理に進み、一致すれば、前記保存情報を変更せず、前記文書検索システムにURL、キーワードを与えないようにする手段を有することを特徴とするHTML文書検索システムへのデータ登録システム。
IPC (2件):
G06F 17/30
, G06F 12/00 546
FI (6件):
G06F 15/401 340 A
, G06F 12/00 546 P
, G06F 15/40 310 F
, G06F 15/40 370 A
, G06F 15/401 310 A
, G06F 15/419 320
Fターム (11件):
5B075ND02
, 5B075NK02
, 5B075NK13
, 5B075NK32
, 5B075NK43
, 5B075NR06
, 5B075PQ05
, 5B082EA01
, 5B082EA08
, 5B082EA09
, 5B082GA07
引用特許:
審査官引用 (1件)
-
検索システム
公報種別:公開公報
出願番号:特願平8-245049
出願人:株式会社東芝
前のページに戻る