GPUクラスタにおけるGPU間セルフ通信機構に関する提案

桑原悠太; 塙敏博; 児玉祐悦; 児玉祐悦; 朴泰祐; 朴泰祐

文献

J-GLOBAL ID：201502211005189773 整理番号：15A0780973

GPUクラスタにおけるGPU間セルフ通信機構に関する提案

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=15A0780973&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=15A0780973&from=J-GLOBAL&jstjournalNo=U0451A") }}

著者 (6件)： , , , , ,
資料名：
巻： 2015 号： HPC-148 ページ： VOL.2015-HPC-148,NO.17 (WEB ONLY) 発行年： 2015年02月23日
JST資料番号： U0451A 資料種別：会議録 (C)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

GPUクラスタにおいて,GPUプログラミング環境として標準的に用いられるCUDA(Compute Unified Device Architecture)では,ノードを跨ぐGPU間通信ではホスト側が通信を行うため,通信が発生する度にGPU上のCUDAカーネルからホストに一旦制御を戻す必要がある。そのため,通信が発生する場所で,カーネル関数を切り分ける必要があり,ユーザプログラミングが煩雑になるだけでなく,カーネル関数の起動に伴うオーバーヘッドが生じる。特に並列処理における通信粒度が細かいほど,カーネル関数の起動回数も増え,オーバーヘッドも増加する。それを防ぐために,本研究ではGPUがカーネル内で直接通信を実行できるような機構を提案・開発する。これを「GPU間セルフ通信機構」と名付ける。本機構では,並列GPUプログラミングを簡単化し,複数ノードのGPU間通信におけるカーネル起動のオーバーヘッドの削減による並列処理効率の向上を目指す。本稿では,GPU間セルフ通信機構に関する実装方法の調査と予備的な性能評価に関して述べる。その後,本機構を用いた“MPI on GPU”の実装(GMPI)と,簡単なベンチマークとしてping-pong転送の性能を評価する。GMPIの試験的実装と予備評価の結果,実装のベースとして用いたMVAPICH2-GDRの性能の約60%の通信性能が得られた。(著者抄録)

, , , , , ,
, ,

専用演算制御装置 , 制御方式

引用文献 (13件)：

TOP500 Supercomputer Sites (online), 入手先 (http://top500.org/).
筑波大学計算科学研究センター:HAPACSベースクラスタ(online),入手先 (http://www.ccs.tsukuba.ac.jp/research/project/hapacs/cluster)
CUDA C Programming Guide (online), 入手先 (http://docs.nvidia.com/cuda/cuda-runtimeapi/index.html).
Message Passing Interface (MPI) Forum Home Page (online), 入手先 (http://www.mpi-forum.org/).
島圭吾,吉見真聡,三好健文,近藤正章,入江英嗣,本多弘樹,吉永努:FLAT:MPIを埋め込み可能なGPUプログラミングフレームワーク,情報処理学会論文誌コンピューティングシステム(ACS),Vol,6,No.4,pp.105-116(2013).

, ,

前のページに戻る