特許
J-GLOBAL ID:201103056725116127

HTML文書検索システムへのデータ登録システム、方法および記録媒体

発明者:
出願人/特許権者:
代理人 (1件): 机 昌彦 (外2名)
公報種別:特許公報
出願番号(国際出願番号):特願平11-095403
公開番号(公開出願番号):特開2000-293527
特許番号:特許第3430066号
出願日: 1999年04月01日
公開日(公表日): 2000年10月20日
請求項(抜粋):
【請求項1】(a)URLとキーワードとの組である保存情報を保存する保存キーワード部と、(b)入力したHTML文書データの日本語文字コードの変換を行うコード変換処理部と、(c)前記コード変換処理部において変換されたHTML文書を形態素解析してキーワードを抽出するキーワード抽出部と、(d)前記HTML文書のURLが前記保存キーワード部内の保存情報に存在するかどうか検索し、存在しなければ、前記HTML文書のURL、前記キーワード抽出部からのキーワードを出力し、存在すれば、前記キーワード抽出部からのキーワードと前記保存キーワード部内の対応するURLを含む保存情報のキーワードとを比較し、一致していなければ、前記HTML文書のURL、前記キーワード抽出部からのキーワードを出力するデータ比較部と、(e)前記データ比較部からの前記HTML文書のURLのファイル名部分がディレクトリの代表ファイル名であるかどうか調べ、代表ファイル名であれば、前記HTML文書のURLを選定し、代表ファイル名でなければ、同一ディレクトリ下でファイル名部分が代表ファイル名であるURLが前記保存キーワード部内の保存情報に存在するかどうか検索し、存在すれば、前記保存キーワード部内の保存情報の対代表ファイル名のURLを選定し、存在しなければ、上位ディレクトリ下でファイル名部分が代表ファイル名であるURLが前記保存キーワード部内の保存情報に存在するかどうか検索し、存在しなければ、前記HTML文書のURLを選定し、存在すれば、前記保存キーワード部内の保存情報の対代表ファイル名のURLを選定する登録URL決定部と、(f)前記登録URL決定部で選定されたURL、前記キーワード抽出部で抽出されたキーワードを文書検索システムに登録し、前記キーワード抽出部で抽出されたキーワード、前記コード変換処理部において変換されたHTML文書からのURLを1組の保存情報として前記保存キーワードに保存するデータ登録部と、を有することを特徴とするHTML文書検索システムへのデータ登録システム。
IPC (6件):
G06F 17/30 210 ,  G06F 17/30 110 ,  G06F 17/30 240 ,  G06F 17/30 419 ,  G06F 12/00 546 ,  G06F 13/00 540
FI (6件):
G06F 17/30 210 A ,  G06F 17/30 110 F ,  G06F 17/30 240 A ,  G06F 17/30 419 B ,  G06F 12/00 546 P ,  G06F 13/00 540 B
引用特許:
審査官引用 (1件)
  • 検索システム
    公報種別:公開公報   出願番号:特願平8-245049   出願人:株式会社東芝

前のページに戻る