大域的文脈埋込みによる標的Twitterストリームのためのエンティティメンテーション検出のブースティング【JST・京大機械翻訳】

Bhowmick Satadisha Saha; Dragut Eduard C.; Meng Weiyi

プレプリント

J-GLOBAL ID：202202207527247215 整理番号：22P0281045

大域的文脈埋込みによる標的Twitterストリームのためのエンティティメンテーション検出のブースティング【JST・京大機械翻訳】

Boosting Entity Mention Detection for Targetted Twitter Streams with Global Contextual Embeddings

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (3件)： , ,
資料名：
発行年： 2022年01月27日プレプリントサーバーでの情報更新日： 2022年01月27日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

Twitterのようなマイクロブロギングサイトはユビキタス情報源として出現している。Microblogsにおける情報の自動抽出と解析に関連した2つの重要なタスクは,エントリティメーション検出(EMD)とエンティリティ検出(ED)である。最先端のEMDシステムは,オフライン静的データセットの訓練により,マイクロブログテキストの非リテラリー特性をモデル化することを目的とする。それらは,雑音のあるテキストモデリングとエンティティ抽出のために,個々のメッセージから,表面レベル特徴,すなわち,オルソグラフ,語彙,および意味の組合せを抽出する。しかし,マイクロブログストリームの絶えず進化する性質を考えると,短いメッセージのそのような変化ではあるが限られたコンテキストから全てのエンティティの検出は困難な問題である。この目的のために,EMDグローバル化器と呼ぶフレームワークを提案し,マイクロブログストリーム上のEMD学習者の実行に,より適切であった。それは,既存のEMDシステムによる分離マイクロブログメッセージの処理から逸脱し,そこでは,メッセージの即時コンテキストからの学習知識を用いて,エンティティを示唆した。EMDシステムによるエンティティ候補の初期抽出の後,提案フレームワークは,この最初の検出中に見逃される追加候補の言及を見つけるため,発生マイニングを利用した。これらの記述の局所文脈表現を集約して,ストリーム内のエンティティ候補の集合的文脈から大域的埋込みを描いた。次に,大域的埋込みを用いて,偽陽性から候補内のエンティティを分離した。ストリームからの前述のエンティティのすべての言及は,フレームワークの最終出力で作り出される。著者らの実験は,EMDグローバル装置が,小さな付加的計算オーバヘッドでテストしたすべての既存のEMDシステム(平均25.61%)の有効性を強化することができることを示した。【JST・京大機械翻訳】

, , , , , , , ,
, , , , , , , , 【Automatic Indexing@JST】

人工知能 , 計算機網

, , , , ,

前のページに戻る