訓練セキュリティ分類器のコスト低減(最適化半教師つき学習)【JST・京大機械翻訳】

Shu Rui; Xia Tianpei; Tu Huy; Williams Laurie; Menzies Tim

プレプリント

J-GLOBAL ID：202202217933888065 整理番号：22P0341854

訓練セキュリティ分類器のコスト低減(最適化半教師つき学習)【JST・京大機械翻訳】

Reducing the Cost of Training Security Classifier (via Optimized Semi-Supervised Learning)

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (5件)： , , , ,
資料名：
発行年： 2022年05月02日プレプリントサーバーでの情報更新日： 2022年05月02日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

背景:スパム検出,マルウェア検出,またはネットワーク侵入検出のようなセキュリティタスクのための既存の機械学習モデルの大部分は,教師つき機械学習アルゴリズム上に構築される。そのようなパラダイムにおいて,モデルは選択した特徴とターゲットクラスの間の有用な関係を学ぶために大量のラベル付きデータを必要とする。しかし,そのようなラベル付けされたデータは,入手が不十分で高価である。Goal:少数のラベル付き訓練データおよび多くのラベルなし訓練データが利用できるとき,セキュリティ実務者が有用なセキュリティ分類モデルを訓練するのを助ける。方法:Dapperと呼ばれる適応フレームワークを提案し,1)半教師つき学習アルゴリズムを最適化し,伝搬パラダイムにおけるラベルなしデータに擬似ラベルを割り当て,2)機械学習分類器(すなわちランダムフォレスト)を割当てる。データセットクラスが高度に不均衡なとき,Dapperは次に適応的に統合し,SMOTEと呼ばれるデータオーバーサンプリング法を最適化する。これらの同調ターゲットの大きなハイパーパラメータ空間を探索するために,新しいBayes最適化を用いた。【結果】著者らは,3つのセキュリティデータセット,すなわち,Twitter spamデータセット,マルウェアURLデータセット,およびCIC-IDS-2017データセットを有するDapperを評価する。実験結果は,元のラベル付けされたデータの10%の低さを使用できるが,教師つき方法で100%のラベル付けされたデータを使用するよりも,近いかまたはより良い分類性能を達成することを示した。結論:これらの結果に基づいて,ラベル付きセキュリティデータの不足を扱うとき,半教師つき学習によるハイパーパラメータ最適化を用いることを推奨した。【JST・京大機械翻訳】

, , , , , , , ,
, , , , , , , 【Automatic Indexing@JST】

人工知能

, , , , ,

前のページに戻る