文献
J-GLOBAL ID:202102252834216152   整理番号:21A1194146

教師なしおよび半教師つき確率的トピックモデリングによるUrdu文書クラスタリング【JST・京大機械翻訳】

Urdu Documents Clustering with Unsupervised and Semi-Supervised Probabilistic Topic Modeling
著者 (4件):
資料名:
巻: 11  号: 11  ページ: 518  発行年: 2020年 
JST資料番号: U7203A  ISSN: 2078-2489  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: スイス (CHE)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
文書クラスタ化は,ある意味的特徴に従って文書をグループ化する。トピックモデルは,より豊富な意味構造を持ち,ユーザが文書コーパスを知るのを助けるためのかなりの可能性がある。残念なことに,この可能性は,それらの純粋に教師なしな性質のため,重複する性質を持つテキスト文書に sしい。この問題を解決するために,英語言語のためにいくつかの半教師つきモデルを提案した。しかし,そのような研究は,貧弱な資源言語Urduのために利用できない。したがって,文書クラスタリングは,それ自身の形態,構文論および意味論を有するUrdu言語における挑戦的なタスクになった。本研究では,Urdu文書クラスタリングのための半教師つきフレームワークを提案し,Urdu形態課題に対処した。提案モデルは,前処理技術,シードLDAモデルおよびGibbsサンプリングの組合せであり,それをシードUrdu Latent Dirichlet Allocation(シードULDA)と命名した。提案モデルと他の方法を,カテゴリー化のためのUrduニュースデータセットに適用した。データセットに対して,2つの条件を文書クラスタリングのために考慮して,1つはすべてのクラスが異なる性質を有する重複のないデータセットである。もう1つは,カテゴリーが重複し,クラスが互いに接続されている重複を伴うデータセットである。本研究の目的は,まず,教師なしモデル(潜在Dirichlet Allocation(LDA),非負行列因数分解(NMF),K平均)が,重複のないデータセットで満足のいく結果を与えることを示す。第2に,これらの教師なしモデルは,このデータセットに関して,重複したデータセット上で十分に実行されず,これらのアルゴリズムは,外因性タスクにおいて,全く意味も,また,有効でないいくつかの話題を見つけることを示した。第3に,提案半教師つきモデルシードULDAは,特定の関心のトピックスを見つけるためのトピックモデルの構築に直接的で効果的であるため,両方のデータセット上で良好に機能した。本論文では,半教師つきモデル,シードULDAが教師なしアルゴリズムと比較して重要な結果を提供することを示した。Copyright 2021 The Author(s) All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
自然語処理 
引用文献 (37件):
  • Kumar, K.; Santosh, G.S.K.; Varma, V. Multilingual Document Clustering Using Wikipedia as External Knowledge. In Multidisciplinary Information Retrieval; Hanbury, A., Rauber, A., de Vries, A.P., Eds.; Springer: Berlin/Heidelberg, Germany, 2011; pp. 108-117.
  • Jain, A.K. Data Clustering: 50 Years Beyond K-means. Pattern Recognit. Lett. 2010, 31, 651-666.
  • Peng, M.; Zhu, J.; Wang, H.; Li, X.; Zhang, Y.; Zhang, X.; Tian, G. Mining Event-Oriented Topics in Microblog Stream with Unsupervised Multi-View Hierarchical Embedding. ACM Trans. Knowl. Discov. Data 2018, 12, 1-26.
  • Peng, M.; Zhu, J.; Li, X.; Huang, J.; Wang, H.; Zhang, Y. Central Topic Model for Event-oriented Topics Mining in Microblog Stream. In Proceedings of the 24th ACM International on Conference on Information and Knowledge Management, CIKM ’15, Melbourne, Australia, 19-23 October 2015; ACM: New York, NY, USA, 2015; pp. 1611-1620.
  • Ghosh, J.; Strehl, A. Similarity-Based Text Clustering: A Comparative Study. In Grouping Multidimensional Data: Recent Advances in Clustering; Springer: Berlin/Heidelberg, Germany, 2006.
もっと見る
タイトルに関連する用語 (5件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る