文献
J-GLOBAL ID:201502212402889079   整理番号:15A1039211

GPU向けQCDライブラリQUDAへのTCAアーキテクチャの適用

Applying TCA Architecture to QUDA QCD Library for GPUs
著者 (10件):
資料名:
巻:号:ページ: 25-35 (WEB ONLY)  発行年: 2015年06月16日 
JST資料番号: U0477A  ISSN: 1882-7829  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: 日本 (JPN)  言語: 日本語 (JA)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
QUDAはNVIDIAのGraphics Processing Unit(GPU)アクセラレータを利用できるオープンソースのLattice Quantum Chromo-Dynamics(QCD)フレームワークである。本論文では,我々が過去の研究より開発しているGPU間の直接通信を可能にするインターコネクトネットワークであるTightly Coupled Accelerators(TCA)architectureをQUDAに適用する。PCクラスタの異なるノードにあるPCI Express(PCIe)に接続されているアクセラレータ間を低レイテンシで接続するために,TCA architectureの開発を行っている。TCAはノード内のPCIe通信と同様に,GPU等のアクセラレータの間をノードをまたいで通信を可能にする。本論文ではHighly Accelerated Parallel Advanced system for Computational Science with the TCA feature(HA-PACS/TCA)を用いて性能評価を行う。HA-PACS/TCAは高密度GPUクラスタであり,TCA architectureの実証実験環境である。QUDAにTCAを適用した結果,TCAによって通信レイテンシが軽減され,アクセラレータを持つPCクラスタで一般的なInfiniBandよりも良い強スケリーングが達成された。TCAによる実装は,Conjugate Gradient(CG)法の反復あたりの性能がMPI peer-to-peer実装よりも2.19倍高速になり,MPI-3 Remote Memory Access(RMA)実装よりも1.23倍高速であるという結果が得られた。MPIによる実装はどちらの実装もInfiniBand QDRによるネットワークを利用している。(著者抄録)
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
専用演算制御装置 
引用文献 (19件):
もっと見る
タイトルに関連する用語 (5件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る