文献
J-GLOBAL ID:201302277889768823   整理番号:13A0887673

ウェブクローラ向けの効率的な重複URL検出手法

著者 (5件):
資料名:
巻:号:ページ: 83-88  発行年: 2009年06月26日 
JST資料番号: L5754A  ISSN: 1883-1060  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: 日本 (JPN)  言語: 日本語 (JA)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
集合の包含判定を行うSBF(Stable Bloom Filter)において,要素挿入時の乱数生成をなくすことで高速化を図ったSBFL(SBF Light)を用いて重複URLを検出する方式を提案する。入力URLに対して,LRUキャッシュ,SBFLの順で,これまでスクロールしたURLと重複するかどうか判定し,重複と判定されたURLに対してはスクロールを行わない。提案方式を評価した結果,SBFLの方がSBFよりも高速で,Faulse Positive(FP)の発生数も減ることが確かめられた。また,LRUキャッシュと組み合わせた場合,FPを1%許容するとキャッシュメモリの容量を63%削減できることも確かめられた。
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
検索技術  ,  計算機網 
引用文献 (10件):
  • [1] Ahmed Metwally, Divyakant Agrawal and Amr El Abbadi: "Duplicate Detection in Click Streams", Proc. of WWW2005, pp.12-21 (2005).
  • [2] Andrei Z. Broder, Marc Najork and Janet L. Wiener: "Efficient URL Caching for World Wide Web Crawling", Proc. of WWW2003, pp.679-689 (2003).
  • [3] Burton H. Bloom: "Space/Time Trade-offs in Hash Coding with Allowable Errors", CACM, Volume 13, pp.422-426 (1970).
  • [4]"efSocietyフ。ロジェクト",http:〃www.yama.info.waseda.ac.jp/e-society/.
  • [5] Fan Deng and Davood Rafiei: "Approximately Detecting Duplicates for Streaming Data Using Stable Bloom Filters", Proc. of ACM SIGMOD, pp.25-36 (2006).
もっと見る
タイトルに関連する用語 (2件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る