GPU向けFFTコードのTCAアーキテクチャによる実装と性能評価

藤井久史; 塙敏博; 児玉祐悦; 児玉祐悦; 朴泰祐; 朴泰祐; 佐藤三久; 佐藤三久

文献

J-GLOBAL ID：201502207063483935 整理番号：15A0780968

GPU向けFFTコードのTCAアーキテクチャによる実装と性能評価

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=15A0780968&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=15A0780968&from=J-GLOBAL&jstjournalNo=U0451A") }}

著者 (8件)： , , , , , , ,
資料名：
巻： 2015 号： HPC-148 ページ： VOL.2015-HPC-148,NO.12 (WEB ONLY) 発行年： 2015年02月23日
JST資料番号： U0451A 資料種別：会議録 (C)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

近年,HPC分野でGPUなどの演算加速装置を用いたクラスタの開発が盛んに行われている。このようなクラスタでは,ノードをまたぐ演算加速装置間の通信をCPUに接続されたネットワークインタフェースを介して行う必要があるため,パケットの変換によるオーバヘッドが発生してしまう。このためレイテンシが増加し,アプリケーションの性能を低下させる原因となる。この問題に対する解決として,我々はGPU間通信のレイテンシの改善を目的とした独自開発の密結合並列演算加速機構TCA(Tightly Coupled Accelerators)の開発を行なっている。2013年10月にはTCA実証システムであるHA-PACS/TCAクラスタが筑波大学計算科学研究センターに導入された。本稿では,科学計算において頻繁に用いられるFFT(Fast Fourier Transform)アルゴリズムに対してTCAを適用する実装と評価を行った。FFTのTCA化にあたっては,まずFFTのアルゴリズムで必要となるAlltoall通信をTCAによって実装し,これをFFTの実装の一つであるFFTEに対して適用した。その結果,16ノードまでのGPUクラスタにおいて,問題サイズが小中規模の場合にTCAによる実装はInfiniBand+MVAPICH2-GDRによる実装に比べ,最大で1.62倍の性能が得られることが確認された。(著者抄録)

, , , , , , ,
,

演算方式 , 専用演算制御装置

引用文献 (18件)：

Top500 Supercomputer Sites. http://top500.org/.
NVIDIA Corp.: NVIDIA GPUDirect. http://developer.nvidia.com/gpudirect.
NVIDIA Corp.: Developing A Linux Kernel Module Using RDMA For GPUDirect. http://developer.download.nvidia.com/compute/cuda/5_0/rc/does/GPUDirect RDMA.pdf.
FFTE: A Fast Fourier Transform Package. http://www.ffte.jp/.
塙敏博,児玉祐悦,朴泰祐,佐藤三久:Tightly Coupled Accelerators アーキテクチャのための通信機構,情報処理学会研究報告(アーキテクチャ),Vol.2012-ARC-201,No.26,pp.18(2012).

, , , , ,

前のページに戻る