抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
機械学習(ML)推論は,待ち時間と精度目標を含む厳密なサービスレベル目標(SLO)に従わなければならないリアルタイム作業負荷である。残念なことに,SLOが推論-保存システムにおいては侵害されないことを確実にすることは,固有のモデル精度-待ち時間トレードオフ,SLO多様性,および応用領域内,SLOの多様性,時間にわたるSLOの進化,予測不能なクエリパターン,および共位置干渉により困難である。本論文では,ニューラルネットワークが推論中に高い入力活性化スパース性を示すことを観察した。.そこで,ノード毎のクエリを動的にドロップアウトするSLO-Awareニューラルネットワークを提案し,それにより,特定のSLO最適化ターゲットとマシン利用に従って実行した計算量を調整した。SLO-Awareニューラルネットワークは,精度損失(0.3%以下)に対して,1.3-56.7×の平均高速化を達成した。精度が制約されたとき,SLO-Awareニューラルネットワークは,同じ訓練されたモデルで低待ち時間で一連の精度目標を果たすことができる。待ち時間が制約された場合,SLO-Awareニューラルネットワークは,待ち時間制約を満たす高精度を維持しながら,共位置干渉から待ち時間劣化を積極的に軽減できる。【JST・京大機械翻訳】