抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
GPUクラスタにおいて,GPUプログラミング環境として標準的に用いられるCUDA(Compute Unified Device Architecture)では,ノードを跨ぐGPU間通信ではホスト側が通信を行うため,通信が発生する度にGPU上のCUDAカーネルからホストに一旦制御を戻す必要がある。そのため,通信が発生する場所で,カーネル関数を切り分ける必要があり,ユーザプログラミングが煩雑になるだけでなく,カーネル関数の起動に伴うオーバーヘッドが生じる。特に並列処理における通信粒度が細かいほど,カーネル関数の起動回数も増え,オーバーヘッドも増加する。それを防ぐために,本研究ではGPUがカーネル内で直接通信を実行できるような機構を提案・開発する。これを「GPU間セルフ通信機構」と名付ける。本機構では,並列GPUプログラミングを簡単化し,複数ノードのGPU間通信におけるカーネル起動のオーバーヘッドの削減による並列処理効率の向上を目指す。本稿では,GPU間セルフ通信機構に関する実装方法の調査と予備的な性能評価に関して述べる。その後,本機構を用いた“MPI on GPU”の実装(GMPI)と,簡単なベンチマークとしてping-pong転送の性能を評価する。GMPIの試験的実装と予備評価の結果,実装のベースとして用いたMVAPICH2-GDRの性能の約60%の通信性能が得られた。(著者抄録)