抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
Fermi世代からPascal世代までのGPU向けの最適化がなされている重力ツリーコードGOTHICを,Volta世代のGPUであるTesla V100向けに移植し,その性能を評価した。Tesla V100を用いて性能を測定したところ,N=2
23=8388608粒子で表現したアンドロメダ銀河モデルの計算に要した時間はステップあたり3.3×10
-2sであり,コンパイル時に-gencode arch=compute_60,code=sm_70を指定することで約1.2倍の性能向上が得られることが分かった。またPascal世代のGPUであるTesla P100と比較すると,1.4-2.2倍の高速化が達成されることが分かった。得られた2.2倍という速度向上率は単精度理論ピーク演算性能比である1.5よりも大きい。これは,Volta世代のGPUにおいて整数演算ユニットが単精度浮動小数点演算ユニットから独立したことによる性能向上だと考えられる。整数演算ユニットの独立によって整数演算と単精度浮動小数点演算の同時実行が可能となり,整数演算の実行時間が単精度浮動小数点演算の実行時間によって隠蔽されることで,理論ピーク演算性能比を越える速度向上率が実現され得る。Tesla V100上では最大N=25×2
20=26214400粒子の計算が実行でき,ステップあたりの実行時間は2.0×10
-1sであった。得られた単精度演算性能は3.5TFlop/sであり,Tesla V100の単精度理論ピーク演算性能の22%にあたる。(著者抄録)