プレプリント
J-GLOBAL ID:202202214122903693   整理番号:22P0331806

テキスト分類のための12機械学習モデルのパイプラインと比較研究【JST・京大機械翻訳】

A pipeline and comparative study of 12 machine learning models for text classification
著者 (3件):
資料名:
発行年: 2022年04月04日  プレプリントサーバーでの情報更新日: 2022年04月04日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
テキストベースの通信は,特にビジネス環境において,通信方法として非常に有利である。その結果として,悪意のあるメッセージ,例えばスパム電子メールを送ることで,オンライン説明書籍または銀行詳細を含む個人情報を中継するのに,ユーザを decむために,しばしば虐待される。このため,テキスト分類のための多くの機械学習法が提案され,ほとんどの電子メールプロバイダのサービスに組み込まれている。しかし,テキスト分類アルゴリズムを最適化して,それらの攻撃性に関する正しいトレードオフを見つけることは,まだ主要な研究課題である。公共スパムコーパスに適用した12機械学習テキスト分類器の最新の調査を提示した。新しいパイプラインを提案し,前処理段階における特定の方法(自然言語処理に基づく)を適用することにより,ハイパーパラメータ選択を最適化し,モデルの性能を改善した。本研究は,テキスト分類問題において広く用いられている機械学習分類器における異なる特徴サイズとハイパーパラメータの効果を調べ,最適化するための新しい方法論を提供することを目的とする。分類器を試験し,Fスコア(精度),精度,再現率,実行時間を含む異なる計量で評価した。これらのすべての側面を解析することにより,提案したパイプラインが,広く使用された公開電子メールコーパスであるEnronデータセット上のスパムフィルタリングに対して,良好な精度を達成するためにどのように使用できるかを示した。統計的試験と説明可能性技術を適用して,提案したパイプラインのロバスト解析を提供し,12の機械学習モデルの分類結果を解釈し,分類結果を駆動する単語を同定した。本解析は,94%のFスコアでEnronデータセットを分類するための効果的な機械学習モデルを同定することが可能であることを示した。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
人工知能  ,  計算機網 
タイトルに関連する用語 (5件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る