抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
テキストベースの通信は,特にビジネス環境において,通信方法として非常に有利である。その結果として,悪意のあるメッセージ,例えばスパム電子メールを送ることで,オンライン説明書籍または銀行詳細を含む個人情報を中継するのに,ユーザを decむために,しばしば虐待される。このため,テキスト分類のための多くの機械学習法が提案され,ほとんどの電子メールプロバイダのサービスに組み込まれている。しかし,テキスト分類アルゴリズムを最適化して,それらの攻撃性に関する正しいトレードオフを見つけることは,まだ主要な研究課題である。公共スパムコーパスに適用した12機械学習テキスト分類器の最新の調査を提示した。新しいパイプラインを提案し,前処理段階における特定の方法(自然言語処理に基づく)を適用することにより,ハイパーパラメータ選択を最適化し,モデルの性能を改善した。本研究は,テキスト分類問題において広く用いられている機械学習分類器における異なる特徴サイズとハイパーパラメータの効果を調べ,最適化するための新しい方法論を提供することを目的とする。分類器を試験し,Fスコア(精度),精度,再現率,実行時間を含む異なる計量で評価した。これらのすべての側面を解析することにより,提案したパイプラインが,広く使用された公開電子メールコーパスであるEnronデータセット上のスパムフィルタリングに対して,良好な精度を達成するためにどのように使用できるかを示した。統計的試験と説明可能性技術を適用して,提案したパイプラインのロバスト解析を提供し,12の機械学習モデルの分類結果を解釈し,分類結果を駆動する単語を同定した。本解析は,94%のFスコアでEnronデータセットを分類するための効果的な機械学習モデルを同定することが可能であることを示した。【JST・京大機械翻訳】