プレプリント
J-GLOBAL ID:202202217651293425   整理番号:22P0287194

予歪言語モデル表現の潜在空間クラスタリングによるトピック発見【JST・京大機械翻訳】

Topic Discovery via Latent Space Clustering of Pretrained Language Model Representations
著者 (5件):
資料名:
発行年: 2022年02月09日  プレプリントサーバーでの情報更新日: 2022年02月09日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
※このプレプリント論文は学術誌に掲載済みです。なお、学術誌掲載の際には一部内容が変更されている可能性があります。
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
トピックモデルはテキストコーパスからの自動トピック発見のための顕著なツールである。それらの有効性にもかかわらず,トピックモデルは,文書における単語順序情報のモデリングの不能性,外部言語知識の組み込みの困難さ,および難治性後部の近似のための正確で効率的な推論方法の欠如を含むいくつかの限界に悩まされている。最近,事前訓練された言語モデル(PLM)は,テキストの優れた表現により,多様なタスクに対する性能改善をもたらした。興味深いことに,トピックモデルに対するより良い代替案として,トピック発見のためにPLMを展開するための標準アプローチが存在しなかった。本論文では,トピック発見のためにPLM表現を用いることの課題を解析し,次に,PLM埋込み上に構築された結合潜在空間学習とクラスタリングフレームワークを提案した。潜在空間において,トピック語と文書トピック分布を共同モデル化して,発見トピックスをコヒーレントで独特の項によって解釈することができ,一方,文書の有意義な要約として役立った。本モデルは,トピック発見のためにPLMによってもたらされる強い表現力および超言語特性を効果的に活用し,トピックモデルよりも概念的に単純である。異なるドメインにおける2つのベンチマークデータセット上で,著者らのモデルは,強いトピックモデルより,かなりコヒーレントで多様な話題を生成し,自動および人間評価の両方に基づいて,より良いトピックワイズ文書表現を提供する。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
自然語処理  ,  パターン認識 

前のページに戻る