抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
背景:スパム検出,マルウェア検出,またはネットワーク侵入検出のようなセキュリティタスクのための既存の機械学習モデルの大部分は,教師つき機械学習アルゴリズム上に構築される。そのようなパラダイムにおいて,モデルは選択した特徴とターゲットクラスの間の有用な関係を学ぶために大量のラベル付きデータを必要とする。しかし,そのようなラベル付けされたデータは,入手が不十分で高価である。Goal:少数のラベル付き訓練データおよび多くのラベルなし訓練データが利用できるとき,セキュリティ実務者が有用なセキュリティ分類モデルを訓練するのを助ける。方法:Dapperと呼ばれる適応フレームワークを提案し,1)半教師つき学習アルゴリズムを最適化し,伝搬パラダイムにおけるラベルなしデータに擬似ラベルを割り当て,2)機械学習分類器(すなわちランダムフォレスト)を割当てる。データセットクラスが高度に不均衡なとき,Dapperは次に適応的に統合し,SMOTEと呼ばれるデータオーバーサンプリング法を最適化する。これらの同調ターゲットの大きなハイパーパラメータ空間を探索するために,新しいBayes最適化を用いた。【結果】著者らは,3つのセキュリティデータセット,すなわち,Twitter spamデータセット,マルウェアURLデータセット,およびCIC-IDS-2017データセットを有するDapperを評価する。実験結果は,元のラベル付けされたデータの10%の低さを使用できるが,教師つき方法で100%のラベル付けされたデータを使用するよりも,近いかまたはより良い分類性能を達成することを示した。結論:これらの結果に基づいて,ラベル付きセキュリティデータの不足を扱うとき,半教師つき学習によるハイパーパラメータ最適化を用いることを推奨した。【JST・京大機械翻訳】