頻出アイテム集合に基づく短テキストクラスタリングとトピック抽出の物質【Powered by NICT】

Peng Min; Huang Jiajia; Zhu Jiahui; Huang Jimin; Liu Jiping

文献

J-GLOBAL ID：201602213850447587 整理番号：16A0094524

頻出アイテム集合に基づく短テキストクラスタリングとトピック抽出の物質【Powered by NICT】

Mass of Short Texts Clustering and Topic Extraction Based on Frequent Itemsets

出版者サイト複写サービスで全文入手
高度な検索・分析はJDreamⅢで

著者 (5件)： , , , ,
資料名：
巻： 52 号： 9 ページ： 1941-1953 発行年： 2015年
JST資料番号： W0790A ISSN： 1000-1239 CODEN： JYYFEY 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：中国 (CHN) 言語：中国語 (ZH)

ソーシャルメディアで発生した短いテキストは,体積,速度,低品質と品種の特性を持ち,ベクトル空間ベースクラスタリング法は,高次元,特徴スパース性と雑音妨害の課題に直面する。本論文では,テキストから採掘された頻出アイテム集合に基づく短テキストクラスタリングと主題抽出(STC-TE)フレームワークを提案した。このフレームワークは,最初に短いテキストの品質に及ぼす多特徴の影響を調べた。大量頻出アイテム集合のは低支援レベルを設定することによる高品質短いテキスト集合から掘削した,重要でない高頻度項目集合の大部分を廃棄するために工夫される類似したアイテム集合フィルタリング戦略。関連テキストにより評価し高頻度項目集合の類似性に基づいて,著者らは種々の話題クラスタにアイテム集合を形成するクラスタ自己適応スペクトルクラスタリング(CSA_SC)アルゴリズムを提案した。最後に,短いテキストの大規模は頻出アイテム集合クラスタから抽出した話題語に従って関連クラスタに分類される。フレームワークは重要な頻出アイテム集合選択とクラスタリング,話題語抽出,及び短いテキスト分類の大規模の性能を評価するために百万SinaWeiboデータセットの上で試験した。実験結果はSTC TEフレームワークが高精度で話題抽出と大規模短いテキストクラスタリングを達成できることを示した。Data from the ScienceChina, LCAS. Translated by JST【Powered by NICT】

, , , , ,
, , , , , , , , , 【Automatic Indexing@JST】

計算機網

, , ,

前のページに戻る