ソースLDA:事前知識源を用いた強化確率的トピックモデル【Powered by NICT】

Wood Justin; Tan Patrick; Wang Wei; Arnold Corey

文献

J-GLOBAL ID：201702230477804582 整理番号：17A1027115

ソースLDA:事前知識源を用いた強化確率的トピックモデル【Powered by NICT】

Source-LDA: Enhancing Probabilistic Topic Models Using Prior Knowledge Sources

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=17A1027115&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=17A1027115&from=J-GLOBAL&jstjournalNo=W2441A") }}

著者 (4件)： , , ,
資料名：
巻： 2017 号： ICDE ページ： 411-422 発行年： 2017年
JST資料番号： W2441A 資料種別：会議録 (C)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

トピックモデリングは,ますます研究者の関心を集めている。各話題は,単語の分布によって表現されるトピックモデリングの一般的な方法は,通常,ラベル付けされていない話題の集合を生成する。これら単語分布と意味論的意味を会合は必ずしも直接的である。伝統的に,この作業は人間の解釈に委ねられている。手動話題を標識常に残念ながら容易ではない,教師なし学習手法によって生成された話題は対象領域における著者らの以前の知識と良く整列とは限らない。現在,この問題を解決するために二つのアプローチが存在する。最初である話題の単語分布に意味論的に最も近い前知識ベースからラベル各話題を割り当てる後処理手順である。第二は,単語分布を事前に提供される予め定義されたセットに話題を制限する教師つきトピックモデリングアプローチである。どちらのアプローチである理想的な,前者は単語分布を正確に記述していないことをラベルを生じる可能性があるとして,後者は著者らの知識ベースを濃縮するために重要であることを知られていない話題を検出する能力を欠いていた。本論文の目標は,得られた話題と話題ラベリングの品質の両方を改善するためのトピックモデリングプロセスをガイドするための事前知識を組み込んだ源LDA,半教師つき潜在的ディリクレ配分(LDA)モデルを導入することである。確率的トピックモデルに知られている潜在的話題を表す既存標識知識源を統合することによりこれを達成した。これら知識源は分布に翻訳し,単語上のDirichlet発生分布のハイパーパラメータの設定に使った。このアプローチは,トピック推論プロセスは,既存の知識と一致しており,同時に,新しい話題の発見を可能にすることを保証する。結果は改善された話題発生を示し,LDA沖の基づいた種々の標識法を用いて得られたものと比較した場合,主題ラベル付における確度を増加させた。Copyright 2017 The Institute of Electrical and Electronics Engineers, Inc. All Rights reserved. Translated from English into Japanese by JST【Powered by NICT】

, , , , , , ,
, , , 【Automatic Indexing@JST】

システム・制御理論一般 , 人工知能 , 情報加工一般 , その他の情報処理 , 自然語処理

, , , , ,

前のページに戻る