抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本研究では,Fermi,Kepler,およびMaxwell GPUアーキテクチャのために最初に最適化された重力オクトツリーコードをVoltaアーキテクチャに適応した。Voltaアーキテクチャは,適切な位置における明示的同期の挿入,または,-ゲンコードアーチ=計算60,符号=sm_70を指定することによって,Pascalまたは以前のアーキテクチャと同じ陰的同期の取締りのいずれかを必要とする独立スレッドスケジューリングを導入する。Tesla V100に関する性能測定,NVIDIAによる現在のフラグシップGPUは,223=8388608粒子を有するAndromeda銀河モデルのN-体シミュレーションが,陰的同期有り無しの場合に対して,それぞれ,3.8×10-2sまたは3.3×10-2s/ステップであったことを明らかにした。Tesla V100は,Tesla P100と比較して1.4から2.2倍の加速を達成し,以前の世代における flag艦GPUである。2.2の観察されたスピードアップは1.5より大きく,それは2つのGPUの理論的ピーク性能の比率である。浮動小数操作のためのそれらからの整数演算のためのユニットの独立性は,整数と浮動点数操作の重複実行を可能にした。それは,理論的ピーク性能比以上のスピードアップ速度をもたらす整数演算の実行時間を隠す。Tesla V100は25×220=26214400粒子までN-体シミュレーションを実行でき,1ステップ当たり2.0×10-1sを要した。それは,単一精度理論ピーク性能の22%である3.5TFlop/sに対応する。Please refer to this article’s citation page on the publisher website for specific rights information. Translated from English into Japanese by JST.【JST・京大機械翻訳】