プレプリント
J-GLOBAL ID:202202217933888065   整理番号:22P0341854

訓練セキュリティ分類器のコスト低減(最適化半教師つき学習)【JST・京大機械翻訳】

Reducing the Cost of Training Security Classifier (via Optimized Semi-Supervised Learning)
著者 (5件):
資料名:
発行年: 2022年05月02日  プレプリントサーバーでの情報更新日: 2022年05月02日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
背景:スパム検出,マルウェア検出,またはネットワーク侵入検出のようなセキュリティタスクのための既存の機械学習モデルの大部分は,教師つき機械学習アルゴリズム上に構築される。そのようなパラダイムにおいて,モデルは選択した特徴とターゲットクラスの間の有用な関係を学ぶために大量のラベル付きデータを必要とする。しかし,そのようなラベル付けされたデータは,入手が不十分で高価である。Goal:少数のラベル付き訓練データおよび多くのラベルなし訓練データが利用できるとき,セキュリティ実務者が有用なセキュリティ分類モデルを訓練するのを助ける。方法:Dapperと呼ばれる適応フレームワークを提案し,1)半教師つき学習アルゴリズムを最適化し,伝搬パラダイムにおけるラベルなしデータに擬似ラベルを割り当て,2)機械学習分類器(すなわちランダムフォレスト)を割当てる。データセットクラスが高度に不均衡なとき,Dapperは次に適応的に統合し,SMOTEと呼ばれるデータオーバーサンプリング法を最適化する。これらの同調ターゲットの大きなハイパーパラメータ空間を探索するために,新しいBayes最適化を用いた。【結果】著者らは,3つのセキュリティデータセット,すなわち,Twitter spamデータセット,マルウェアURLデータセット,およびCIC-IDS-2017データセットを有するDapperを評価する。実験結果は,元のラベル付けされたデータの10%の低さを使用できるが,教師つき方法で100%のラベル付けされたデータを使用するよりも,近いかまたはより良い分類性能を達成することを示した。結論:これらの結果に基づいて,ラベル付きセキュリティデータの不足を扱うとき,半教師つき学習によるハイパーパラメータ最適化を用いることを推奨した。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
人工知能 

前のページに戻る