都市レベルのラージエディシミュレーションの並列化GPUコード【JST・京大機械翻訳】

Tsuji Daisuke; Boku Taisuke; Ikeda Ryosaku; Sato Takuto; Tadano Hiroto; Kusaka Hiroyuki

文献

J-GLOBAL ID：202002274137726917 整理番号：20A2261552

都市レベルのラージエディシミュレーションの並列化GPUコード【JST・京大機械翻訳】

Parallelized GPU Code of City-Level Large Eddy Simulation

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=20A2261552&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=20A2261552&from=J-GLOBAL&jstjournalNo=W2441A") }}

著者 (6件)： , , , , ,
資料名：
巻： 2020 号： ISPDC ページ： 76-83 発行年： 2020年
JST資料番号： W2441A 資料種別：会議録 (C)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

本論文では,建物,表面材料,および太陽光効果のような表面条件を含む詳細な大規模渦シミュレーションのための,Tsukuba大学,計算科学センター(CCS)で開発した,著者らの都市-LESコードのGPU実装を,CUDAとOpenACC間の性能比較,および2)CPUとGPUメモリ間のデータ交換を減らす方法,について述べた。NVIDIA Tesla V 100の多くのGPUデバイスを用いて,PGIによる現在のOpenACCコンパイラは,LES計算の主要部分において,CUDAに匹敵する性能を達成できることを見出した。また,GPUとCPU間のデータコピーを回避するためCPUのものより低い性能に対してOpenACCを攻撃的に適用し,GPUメモリのみにすべてのデータをカプセル化する。最適化したOpenACC(部分的にCUDA)コードにおいて,結果は,コードの完全GPUバージョンの性能が2倍になり,GPU-CPUデータコピーの大部分が元のGPUコードから取り除かれることを示した。スケーリング性能テストのために,完全なGPUバージョンはCPUバージョンの4.7xから10x性能を達成した。これはCCSのGPUクラスタCygnusで行われ,各ノードは2つのIntel Xeon CPUと4つのNVIDIA Tesla V100 GPUsを装備し,128GPUsの32ノードまでの強いスケーリングを有した。弱いスケーリングのために,完全なGPUバージョンは,並列実行の128GPUを有する32ノードまでのCPUバージョンの9x以上の性能を達成した。Copyright 2020 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , ,
, , , , , , 【Automatic Indexing@JST】

図形・画像処理一般

, , ,

前のページに戻る