抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
サイズ中で成長したときスーパコンピュータは科学計算のための新しい機会を提供する。しかし,それらの成長は,新しい課題を提起する。回復力は,極端な規模計算を解くために最も緊急の問題の一つとして認識されている。桁のナノメートル時代と電力制約におけるトランジスタスケーリングは,次世代機の故障率を劇的に増加させる可能性がある。DRAM誤差は異なるスーパーコンピュータのための過去に解析されているが,これらの研究は,通常,ハードウェアレベル誤り訂正符号により生成したジョブスケジューラ検層と計数器に基づいている。脱出ハードウェアチェック誤差,サイレントデータ破損をもたらすについてはほとんど知られていない。本研究では,誤差補正なし低電力メモリを特徴とする約1000ノードを持つクラスタ上で1年にわたって記憶誤差を解析することによりこのギャップを埋めることを試みた。研究は千記憶誤りの詳細な情報を記録するイベントの百万を集め,それらの多くは,複数のビットを破壊。いくつかの因子を解析し,誤差の間の時間的および空間的相関があったが,温度の影響,天空における太陽の位置である。研究は最もマルチビット誤差は記憶単語における非隣接ビットで破損したこと,および大部分の誤差は,1年から0年までのメモリビットをフリップすることを示した。添加では,記憶の異なる領域に同時発生する複数の単一ビット誤りの場合の千を観察した。これらの新しい観測は,古典系の誤差補正計数管を解析するだけで可能でないであろう。本研究の知見は,今後のより信頼性の高いシステムの設計を助けることができるいくつかの方向を提案した。Copyright 2017 The Institute of Electrical and Electronics Engineers, Inc. All Rights reserved. Translated from English into Japanese by JST【Powered by NICT】