ボルタGPUにおける重力八分木コード性能評価【JST・京大機械翻訳】

Miki Yohei

文献

J-GLOBAL ID：202002229785296483 整理番号：20A1508702

ボルタGPUにおける重力八分木コード性能評価【JST・京大機械翻訳】

Gravitational Octree Code Performance Evaluation on Volta GPU

出版者サイト複写サービスで全文入手
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=20A1508702&from=J-GLOBAL&jstjournalNo=D0698C") }}

著者 (1件)：
資料名：
号： ICPP 2019 ページ： 1-10 発行年： 2019年
JST資料番号： D0698C 資料種別：会議録 (C)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

本研究では,Fermi,Kepler,およびMaxwell GPUアーキテクチャのために最初に最適化された重力オクトツリーコードをVoltaアーキテクチャに適応した。Voltaアーキテクチャは,適切な位置における明示的同期の挿入,または,-ゲンコードアーチ=計算60,符号=sm_70を指定することによって,Pascalまたは以前のアーキテクチャと同じ陰的同期の取締りのいずれかを必要とする独立スレッドスケジューリングを導入する。Tesla V100に関する性能測定,NVIDIAによる現在のフラグシップGPUは,223=8388608粒子を有するAndromeda銀河モデルのN-体シミュレーションが,陰的同期有り無しの場合に対して,それぞれ,3.8×10-2sまたは3.3×10-2s/ステップであったことを明らかにした。Tesla V100は,Tesla P100と比較して1.4から2.2倍の加速を達成し,以前の世代における flag艦GPUである。2.2の観察されたスピードアップは1.5より大きく,それは2つのGPUの理論的ピーク性能の比率である。浮動小数操作のためのそれらからの整数演算のためのユニットの独立性は,整数と浮動点数操作の重複実行を可能にした。それは,理論的ピーク性能比以上のスピードアップ速度をもたらす整数演算の実行時間を隠す。Tesla V100は25×220=26214400粒子までN-体シミュレーションを実行でき,1ステップ当たり2.0×10-1sを要した。それは,単一精度理論ピーク性能の22%である3.5TFlop/sに対応する。Please refer to this article’s citation page on the publisher website for specific rights information. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , , , , , , , , , , , , ,
, 【Automatic Indexing@JST】

著者キーワード (4件)： , , ,

専用演算制御装置

, ,

前のページに戻る