教師付き機械学習と特徴組合せを用いたUrduにおけるアバシブおよび脅威言語検出【JST・京大機械翻訳】

Humayoun Muhammad

プレプリント

J-GLOBAL ID：202202201939003754 整理番号：22P0327484

教師付き機械学習と特徴組合せを用いたUrduにおけるアバシブおよび脅威言語検出【JST・京大機械翻訳】

Abusive and Threatening Language Detection in Urdu using Supervised Machine Learning and Feature Combinations

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (1件)：
資料名：
発行年： 2022年04月06日プレプリントサーバーでの情報更新日： 2022年04月06日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

本論文では,Urdu Abusive and Thrating Language検出タスクに関するFIRE共有タスク2021に提出されたシステム記述を提示した。この課題は,Urduで書かれた攻撃的で脅威のあるツイートを自動的に同定することである。競争における第3の認識のために,著者らの提出結果を選択した。本論文では,提出された結果に到達できるようにした実験の非経験リストを報告する。さらに,競争の宣言後に,提出された結果よりもより良い結果を達成するように管理した。著者らのモデルは,タスクA(Urdu TwetsのためのAbusive Language Detection)とタスクB(Urdu Twetsのための言語検出)に関する0.4931F1スコアに関する0.8318F1スコアを達成した。結果は,n=1,2,3の単語nグラムの組合せによって作り出される停止語,補題,および特徴ベクトルを有するサポートベクターマシンが,タスクAのために最良の結果を生み出すことを示した。タスクBでは,停止語を削除したサポートベクターマシン,適用されない補題,事前訓練Urdu Word2Vec(単語ユニグラムとバイグラム)から作成した特徴ベクトル,およびオーバーサンプリング技術を用いてバランスしたデータセットが最良の結果をもたらした。このコードは再現性のために利用できる。【JST・京大機械翻訳】

, , , , , ,
, , , , , 【Automatic Indexing@JST】

自然語処理 , パターン認識

, , ,

前のページに戻る