抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
並列計算機の大規模化で,Silent Data Corruption(SDC)による信頼性低下が懸念されている。SDCは検出が困難な障害で,対応にはコストがかかる。適切な方法を構築・選択するには,故障注入によるオーバーヘッドや耐故障性の評価が重要になる。しかし,これまでの故障注入器はランダムなビットフリップを行うものが多く,ハードウェア特有の故障パターンを再現できない。本研究では実故障の注入を目的として,仮想マシンエミュレータQEMUを拡張し,故障注入器MH-QEMUを作成した。MH-QEMUでは,メモリ状態の変更のみならず,仮想マシンのメモリへのアクセスを検知・処理できるメモリアクセスハンドラ機能を実現した。これによりメモリアクセスパターン依存故障や永続的故障を注入できる。これらの機能のオーバーヘッドは仮想マシン上のワークロードごとに異なり,NAS Parallel Benchmarks(NPB)を用いた場合には,もっともよい場合で実行時間が約20倍で抑えられることを確認した。さらに,NPBのCGカーネルに対し,シングルビットフリップの注入では約100%の割合で計算が正常終了したが,Row-Hammerの注入では,約40%の割合で異常終了が起き,3%の割合でSDCが発生することを確認した。(著者抄録)