ラベル精密化を用いたソーシャルメディア談話からの大規模誤情報ラベル付きデータセットの構築【JST・京大機械翻訳】

Sharma Karishma; Ferrara Emilio; Liu Yan

プレプリント

J-GLOBAL ID：202202208588227469 整理番号：22P0295025

ラベル精密化を用いたソーシャルメディア談話からの大規模誤情報ラベル付きデータセットの構築【JST・京大機械翻訳】

Construction of Large-Scale Misinformation Labeled Datasets from Social Media Discourse using Label Refinement

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (3件)： , ,
資料名：
発行年： 2022年02月24日プレプリントサーバーでの情報更新日： 2022年02月24日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

特にCOVID-19パンデミックの間,不正な説明拡大ミス情報によって,広範囲にわたる偽と誤解なナラティブが生じて,社会メディアプラットフォームは,これらのコンテンツを迅速に排除するのに苦労した。これは,新しいドメインへの適応が,遅く,スケールが難しいヒト集中的な事実チェックを必要とするためである。この課題に取り組むために,ソーシャルメディアポストのための弱いラベルとしてニュースソース信頼性ラベルを活用し,新しいドメインにおける大規模で多様な誤情報ラベル付きデータセットを構築するためのラベルのモデル誘導精密化を提案した。弱いラベルは,利用者のスタンスがニュースソースまたは記事の信頼性とは整列しないレベルで,論文またはソーシャルメディアで不正確である。潜在的に不正確なラベルを同定し,自己スーパービジョンまたは再ラベリングを用いてそれらを修正するために,モデルの予測におけるエントロピーに基づく不確実性サンプリングを用いて,初期弱ラベル上で自己訓練された検出モデルを使用するフレームワークを提案した。フレームワークは,最小人間努力を持つ大規模データセットの構築に向けて,不正確なラベルを乗り越えるために,その関連ユーザのコミュニティに関して,ポストの社会的文脈を組み入れるであろう。情報が有意なコンテキストを欠いているか,不正確な補助詳細を持つ誤解なナラティブの区別でラベル付きデータセットを提供するために,提案したフレームワークは,クラスプロトタイプとして少数のラベル付きサンプルを用いて,偽,非証明,混合物,ほとんど偽,ほとんど真,およびデブンク情報に高信頼サンプルを分離した。COVID-19ワクチンに関する大規模誤情報データセットを提供するためのアプローチを示した。【JST・京大機械翻訳】

, , , , , , , , , , , ,
, , , , 【Automatic Indexing@JST】

人工知能

, , , , , ,

前のページに戻る