知的多言語ソーシャルメディアコンテンツに対する毒性検出【JST・京大機械翻訳】

Jhaveri Manan; Ramaiya Devanshu; Chadha Harveen Singh

プレプリント

J-GLOBAL ID：202202204762884037 整理番号：22P0022835

知的多言語ソーシャルメディアコンテンツに対する毒性検出【JST・京大機械翻訳】

Toxicity Detection for Indic Multilingual Social Media Content

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (3件)： , ,
資料名：
発行年： 2022年01月03日プレプリントサーバーでの情報更新日： 2022年01月03日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

毒性含有量は,今日,ソーシャルメディアプラットフォームにとって最も重要な課題の1つである。インド単独では2020年に518百万のソーシャルメディアユーザがあった。コンテンツ創造者とその聴衆に対する良好な経験を提供するためには,毒性コメントとユーザを止めることが重要である。しかし,大きな課題は,同じテキストの多重表現の存在のため,低資源Indic言語における毒性を同定することである。さらに,ソーシャルメディアに関するポスト/コメントは,特定のフォーマット,文法または文章構造に接着しない。これは,多言語ソーシャルメディアプラットフォームに対して,より挑戦的である虐待検出のタスクをなしている。本論文は,IIIT-D多言語Abusive Comment Commission Comment Communction Commission Comment Commission Proコード混合/コードスイッチ分類タスクにアプローチするために,多言語変圧器ベース事前訓練と微調整モデルをどのように活用できるかに焦点を当てた。最良の性能システムはXLM-RoBERTaとMuRILのアンサンブルであり,テストデータ/リーダボード上で0.9の平均F-1スコアを達成した。また,トランスリットルデータを加えることによって,性能の増加を観察した。さらに,弱いメタデータ,アンサンブル,およびいくつかの後処理技術を用いて,著者らのシステムの性能を上げ,それによって,リーダボードに1番目を配置した。【JST・京大機械翻訳】

, , , , , , , , , , , ,
, , , 【Automatic Indexing@JST】

その他の情報処理 , 計算機網

, , ,

前のページに戻る