教師なしおよび半教師つき確率的トピックモデリングによるUrdu文書クラスタリング【JST・京大機械翻訳】

Mustafa Mubashar; Zeng Feng; Ghulam Hussain; Arslan Hafiz Muhammad

文献

J-GLOBAL ID：202102252834216152 整理番号：21A1194146

教師なしおよび半教師つき確率的トピックモデリングによるUrdu文書クラスタリング【JST・京大機械翻訳】

Urdu Documents Clustering with Unsupervised and Semi-Supervised Probabilistic Topic Modeling

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=21A1194146&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=21A1194146&from=J-GLOBAL&jstjournalNo=U7203A") }}

著者 (4件)： , , ,
資料名：
巻： 11 号： 11 ページ： 518 発行年： 2020年
JST資料番号： U7203A ISSN： 2078-2489 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：スイス (CHE) 言語：英語 (EN)

文書クラスタ化は,ある意味的特徴に従って文書をグループ化する。トピックモデルは,より豊富な意味構造を持ち,ユーザが文書コーパスを知るのを助けるためのかなりの可能性がある。残念なことに,この可能性は,それらの純粋に教師なしな性質のため,重複する性質を持つテキスト文書に sしい。この問題を解決するために,英語言語のためにいくつかの半教師つきモデルを提案した。しかし,そのような研究は,貧弱な資源言語Urduのために利用できない。したがって,文書クラスタリングは,それ自身の形態,構文論および意味論を有するUrdu言語における挑戦的なタスクになった。本研究では,Urdu文書クラスタリングのための半教師つきフレームワークを提案し,Urdu形態課題に対処した。提案モデルは,前処理技術,シードLDAモデルおよびGibbsサンプリングの組合せであり,それをシードUrdu Latent Dirichlet Allocation(シードULDA)と命名した。提案モデルと他の方法を,カテゴリー化のためのUrduニュースデータセットに適用した。データセットに対して,2つの条件を文書クラスタリングのために考慮して,1つはすべてのクラスが異なる性質を有する重複のないデータセットである。もう1つは,カテゴリーが重複し,クラスが互いに接続されている重複を伴うデータセットである。本研究の目的は,まず,教師なしモデル(潜在Dirichlet Allocation(LDA),非負行列因数分解(NMF),K平均)が,重複のないデータセットで満足のいく結果を与えることを示す。第2に,これらの教師なしモデルは,このデータセットに関して,重複したデータセット上で十分に実行されず,これらのアルゴリズムは,外因性タスクにおいて,全く意味も,また,有効でないいくつかの話題を見つけることを示した。第3に,提案半教師つきモデルシードULDAは,特定の関心のトピックスを見つけるためのトピックモデルの構築に直接的で効果的であるため,両方のデータセット上で良好に機能した。本論文では,半教師つきモデル,シードULDAが教師なしアルゴリズムと比較して重要な結果を提供することを示した。Copyright 2021 The Author(s) All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , , ,
, , , , 【Automatic Indexing@JST】

著者キーワード (5件)： , , , ,

自然語処理

引用文献 (37件)：

Kumar, K.; Santosh, G.S.K.; Varma, V. Multilingual Document Clustering Using Wikipedia as External Knowledge. In Multidisciplinary Information Retrieval; Hanbury, A., Rauber, A., de Vries, A.P., Eds.; Springer: Berlin/Heidelberg, Germany, 2011; pp. 108-117.
Jain, A.K. Data Clustering: 50 Years Beyond K-means. Pattern Recognit. Lett. 2010, 31, 651-666.
Peng, M.; Zhu, J.; Wang, H.; Li, X.; Zhang, Y.; Zhang, X.; Tian, G. Mining Event-Oriented Topics in Microblog Stream with Unsupervised Multi-View Hierarchical Embedding. ACM Trans. Knowl. Discov. Data 2018, 12, 1-26.
Peng, M.; Zhu, J.; Li, X.; Huang, J.; Wang, H.; Zhang, Y. Central Topic Model for Event-oriented Topics Mining in Microblog Stream. In Proceedings of the 24th ACM International on Conference on Information and Knowledge Management, CIKM ’15, Melbourne, Australia, 19-23 October 2015; ACM: New York, NY, USA, 2015; pp. 1611-1620.
Ghosh, J.; Strehl, A. Similarity-Based Text Clustering: A Comparative Study. In Grouping Multidimensional Data: Recent Advances in Clustering; Springer: Berlin/Heidelberg, Germany, 2006.

, , , ,

前のページに戻る