(K-means)-階層的並列遺伝的アルゴリズムアプローチを用いたクラスタベース情報検索【JST・京大機械翻訳】

Toman Sarah Hussein; Abed Mohammed Hamzah; Toman Zinah Hussein

プレプリント

J-GLOBAL ID：202202221323525111 整理番号：22P0177395

(K-means)-階層的並列遺伝的アルゴリズムアプローチを用いたクラスタベース情報検索【JST・京大機械翻訳】

Cluster-Based Information Retrieval by using (K-means)- Hierarchical Parallel Genetic Algorithms Approach

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (3件)： , ,
資料名：
発行年： 2020年07月31日プレプリントサーバーでの情報更新日： 2020年07月31日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

クラスタベースの情報検索は情報検索(IR)ツールの1つであり,その類似性に従ってWeb文書を組織化,抽出,分類する。従来の手法とは異なり,クラスタベースのIRは文書の大規模データセットを処理する際に高速である。検索された文書の品質を改善するために,IRの効率を高め,ユーザ検索から無関係な文書を縮小し,著者らは,マルチデームとマスタ/スレーブPGアルゴリズムのハイブリッドPGとK平均クラスタリングアルゴリズムを結合する(K-平均)-階層的並列遺伝的アルゴリズムアプローチ(HPGA)を提案した。K-平均は,母集団をk亜集団にクラスタ化するために利用し,次に,2つのレベルの遺伝的並列性によって並列方法で操作するクエリに関連する大部分のクラスタを取り上げ,その結果,結果の品質を改善する方法として,無関係な文書は亜集団に含まれない。3つの共通データセット(NLP,CISI,およびCACM)を用いて,想起,精度,およびF測度平均を計算した。最後に,遺伝的IRと古典的IRとの3つのデータセットの精度値を比較した。IR-GAによる提案方法精度改善はCACMで45%,CISIで27%,NLPで25%であった。一方,Classic-IRと比較して,(k-means)-HPGAはCACMで47%,CISIで28%,NLPで34%であった。【JST・京大機械翻訳】

, , , , , , , , , ,
, , , , 【Automatic Indexing@JST】

自然語処理 , 検索技術 , 情報収集・整理

, ,

前のページに戻る