特許
J-GLOBAL ID:200903075471055463

HTML文書検索システムへのデータ登録システム、方法および記録媒体

発明者:
出願人/特許権者:
代理人 (1件): 京本 直樹 (外2名)
公報種別:公開公報
出願番号(国際出願番号):特願平11-095403
公開番号(公開出願番号):特開2000-293527
出願日: 1999年04月01日
公開日(公表日): 2000年10月20日
要約:
【要約】【課題】 文書検索システムへ効率的なデータ登録を実現し、検索効率を向上させる。【解決手段】 Webロボット20はHTML文書データ21に保存する。データ登録システム10のコード変換処理部11は、日本語文字コードの変換を行い、キーワード抽出部12は、HTML文書を形態素解析してすべての名詞をキーワードとして抽出する。データ比較部13は、過去に保存された保存キーワード14内のキーワードとキーワード抽出部12で抽出されたキーワードとの比較を行う。登録URL決定部15は、文書検索システム30に登録するURL、タイトルを決定し、データ登録部16は、URL、タイトルとキーワード抽出部12で抽出したキーワードとを文書検索システム30に登録する処理を行い、保存キーワード14にも、保存情報として保存する。
請求項(抜粋):
インターネットから採取したHTML文書からURL、およびキーワードを抽出して保存情報として保存し、新たに採取したHTML文書のURLと前記保存情報内のURLとを比較し、一致しなければ、前記新たに採取したHTML文書のURL、およびキーワードを前記保存情報として別に保存し、かつ、文書検索システムに与えるための第1の処理に進み、一致すれば、前記新たに採取したHTML文書から抽出したキーワードとURLが一致した前記保存情報内のキーワードとを比較し、一致しなければ、前記新たに採取したHTML文書のURL、およびキーワードを前記保存情報として別に保存し、かつ、前記文書検索システムに与えるための第2の処理に進み、一致すれば、前記保存情報を変更せず、前記文書検索システムにURL、キーワードを与えないようにする手段を有することを特徴とするHTML文書検索システムへのデータ登録システム。
IPC (2件):
G06F 17/30 ,  G06F 12/00 546
FI (6件):
G06F 15/401 340 A ,  G06F 12/00 546 P ,  G06F 15/40 310 F ,  G06F 15/40 370 A ,  G06F 15/401 310 A ,  G06F 15/419 320
Fターム (11件):
5B075ND02 ,  5B075NK02 ,  5B075NK13 ,  5B075NK32 ,  5B075NK43 ,  5B075NR06 ,  5B075PQ05 ,  5B082EA01 ,  5B082EA08 ,  5B082EA09 ,  5B082GA07
引用特許:
審査官引用 (1件)
  • 検索システム
    公報種別:公開公報   出願番号:特願平8-245049   出願人:株式会社東芝

前のページに戻る