ポドキャストショートテキストメタデータに関するトピックモデリング【JST・京大機械翻訳】

Valero Francisco B.; Baranes Marion; Epure Elena V.

プレプリント

J-GLOBAL ID：202202201185097870 整理番号：22P0026656

ポドキャストショートテキストメタデータに関するトピックモデリング【JST・京大機械翻訳】

Topic Modeling on Podcast Short-Text Metadata

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (3件)： , ,
資料名：
発行年： 2022年01月12日プレプリントサーバーでの情報更新日： 2022年01月12日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

ポッドキャストは,大規模に消費されたオンラインコンテンツとして現れ,特に,生産手段のより広いアクセシビリティと大きなストリーミングプラットフォームによるスケール分布により,顕著に消費されている。カテゴリー化システムおよび情報アクセス技術は,ポッドキャスト収集を組織化またはナビゲートする主要な方法として,トピックスを典型的に利用している。しかし,割り当てられたエディタリアルジャンルが広い,不均一または誤解であるか,あるいはデータ課題(例えば,短いメタデータテキスト,雑音の多い転写体)のため,トピックスを有するポッドキャストの注釈は,まだ非常に問題がある。ここでは,短いテキストのためのトピックモデリング技術を用いて,ポッドキャストメタデータ,表題および記述から関連トピックを発見する実現可能性を評価した。また,非負行列因子分解(NMF)トピックモデリングフレームワークにおいて,ポッドキャストメタデータにしばしば存在する,名前付きエンティティ(NE)を利用する新しい戦略を提案した。ポッドキャストのカタログを提供するオンラインサービスからの新しいデータセットである,SpotifyとiTunesとDeezerからの2つの既存のデータセットに関する著者らの実験は,提案した文書表現,NeiCEが,基準線上のトピックコヒーレンスの改善につながることを示した。結果の実験再現性のためにコードを解放した。【JST・京大機械翻訳】

, , , , , , , , , , ,
, , , , , 【Automatic Indexing@JST】

その他の情報処理 , 自然語処理

前のページに戻る