レジスタ最適化を用いたCUDAによる格子ボルツマン法の高速化手法

富永浩文; 中村あすか; 前川仁孝

文献

J-GLOBAL ID：201802220890758565 整理番号：18A1186187

レジスタ最適化を用いたCUDAによる格子ボルツマン法の高速化手法

High-speed Method of Lattice Boltzmann Method on the CUDA Using Registers Optimization

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=18A1186187&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=18A1186187&from=J-GLOBAL&jstjournalNo=U0474A") }}

著者 (3件)： , ,
資料名：
巻： 11 号： 2 ページ： 1-8 (WEB ONLY) 発行年： 2018年06月26日
JST資料番号： U0474A ISSN： 1882-7802 資料種別：逐次刊行物 (A)
記事区分：短報発行国：日本 (JPN) 言語：日本語 (JA)

本論文では,CUDA(Compute Unifide Device Architecture)を用いた格子ボルツマン法(LBM:Lattice Boltzmann Method)を高速化するために,メモリアクセス遅延を削減する手法を提案する。格子ボルツマン法は,解析領域を格子に分割し離散化されたボルツマン方程式を解く手法である。ボルツマン方程式の計算は,周囲の格子点の情報を参照するため,メモリアクセスコストが高いメモリバウンドな計算である。このため,LBMのメモリアクセスコストを削減する手法の1つとしてテンポラルブロッキングが用いられている。CUDAによるテンポラルブロッキングを用いた格子ボルツマン法は,ブロックに分割した領域をスレッドブロックに割り当て時間発展方程式を計算する。本計算は,メモリアクセスのコストを抑えるが,シェアードメモリにデータを格納することで,シェアードメモリに対する同期処理やレイテンシによるアクセスコストが処理の大部分を占める。そこで,本論文では,メモリアクセスコストが低いレジスタを用いてテンポラルブロッキングを行うことで処理を高速化する手法を提案する。提案手法は,テンポラルブロッキングにおける複数時間ステップの計算をレジスタ上に保持して行うことで処理を高速化する。(著者抄録)

, , , , , , ,
, , , ,

計算機システム開発

引用文献 (18件)：

福井貴也,越村俊一,松山昌史:格子ボルツマン法による津波氾濫流の 2D-3Dハイブリッド・シミュレーション, 土木学会論文集 B2(海岸工学),Vol.66, No.1, pp.61-65 (2010).
Mawson, M. and Revell, A.J.: Memory transfer optimization for a lattice Boltzmann solver on Kepler architecture nVidia GPUs, CoRR, Vol.abs/1309.1983 (2013).
Bailey, P., Myre, J., Walsh, S.D.C., Lilja, D.J. and Saar, M.O.: Accelerating Lattice Boltzmann Fluid Flow Simulations Using Graphics Processors, 2009 International Conference on Parallel Processing, pp.550-557 (2009).
Calore, E., Marchi, D., Schifano, S.F. and Tripiccione, R.: Optimizing communications in multi-GPU Lattice Boltzmann simulations, 2015 International Conference on High Performance Computing Simulation (HPCS), pp.55-62 (2015).
Jin, G., Lin, J. and Endo, T.: Efficient utilization of memory hierarchy to enable the computation on bigger domains for stencil computation in CPU-GPU based systems, 2014 International Conference on High Performance Computing and Applications (ICHPCA), pp.1-6 (2014).

, , , , ,

前のページに戻る