テキスト分類のための12機械学習モデルのパイプラインと比較研究【JST・京大機械翻訳】

Occhipinti Annalisa; Rogers Louis; Angione Claudio

プレプリント

J-GLOBAL ID：202202214122903693 整理番号：22P0331806

テキスト分類のための12機械学習モデルのパイプラインと比較研究【JST・京大機械翻訳】

A pipeline and comparative study of 12 machine learning models for text classification

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (3件)： , ,
資料名：
発行年： 2022年04月04日プレプリントサーバーでの情報更新日： 2022年04月04日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

テキストベースの通信は,特にビジネス環境において,通信方法として非常に有利である。その結果として,悪意のあるメッセージ,例えばスパム電子メールを送ることで,オンライン説明書籍または銀行詳細を含む個人情報を中継するのに,ユーザを decむために,しばしば虐待される。このため,テキスト分類のための多くの機械学習法が提案され,ほとんどの電子メールプロバイダのサービスに組み込まれている。しかし,テキスト分類アルゴリズムを最適化して,それらの攻撃性に関する正しいトレードオフを見つけることは,まだ主要な研究課題である。公共スパムコーパスに適用した12機械学習テキスト分類器の最新の調査を提示した。新しいパイプラインを提案し,前処理段階における特定の方法(自然言語処理に基づく)を適用することにより,ハイパーパラメータ選択を最適化し,モデルの性能を改善した。本研究は,テキスト分類問題において広く用いられている機械学習分類器における異なる特徴サイズとハイパーパラメータの効果を調べ,最適化するための新しい方法論を提供することを目的とする。分類器を試験し,Fスコア(精度),精度,再現率,実行時間を含む異なる計量で評価した。これらのすべての側面を解析することにより,提案したパイプラインが,広く使用された公開電子メールコーパスであるEnronデータセット上のスパムフィルタリングに対して,良好な精度を達成するためにどのように使用できるかを示した。統計的試験と説明可能性技術を適用して,提案したパイプラインのロバスト解析を提供し,12の機械学習モデルの分類結果を解釈し,分類結果を駆動する単語を同定した。本解析は,94%のFスコアでEnronデータセットを分類するための効果的な機械学習モデルを同定することが可能であることを示した。【JST・京大機械翻訳】

, , , , , , , , , , ,
, , , , 【Automatic Indexing@JST】

人工知能 , 計算機網

, , , ,

前のページに戻る