文献
J-GLOBAL ID:201502260688166080   整理番号:15A0566414

CUDA-xSYMVの実装と評価

著者 (7件):
資料名:
巻: 2014  号: HPC-146  ページ: VOL.2014-HPC-146,NO.14 (WEB ONLY)  発行年: 2014年09月25日 
JST資料番号: U0451A  資料種別: 会議録 (C)
記事区分: 原著論文  発行国: 日本 (JPN)  言語: 日本語 (JA)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
対称行列ベクトル積(SYMV)は行列の対称性を利用して要求バンド幅を半減できる演算である。適切な最適化技法を利用することで,一般行列ベクトル積(GEMV)よりも2倍の性能を示すことが期待される。本研究では,対称性を利用する際に考慮しなくてはならない複数スレッドによるベクトルデータへの書き込み競合に対して,アトミック演算を用いたmutexの実装を工夫することによりアクセス順制御を実現している。これにより,CUBLAS等で指摘されている「実行毎に丸め誤差の範囲で演算結果が異なる」という現象を回避できる。また,既存研究ではスレッドブロック形状が1次元であったものを2次元に拡張し,計算コア数を増加させることができるようになった。本研究のもう一つのポイントは自動チューニング技術(AT)による最適パラメタ探索により高性能カーネルの構築を実現していることにある。2次元ブロック化によって広範囲に分布するパラメタ空間から自動で最適パラメタ値を探索し,少々時間を要するものの最適化された高性能SYMVをGPUアーキテクチャ毎にビルドすることができる。実際,最適化されたSSYMV(単精度版SYMV)カーネルが,GeForce GTXTitan Black上で211GFLOPS(対最大バンド幅62.8%)を記録している。さらに,実数(単精度や倍精度)以外の数値フォーマットである複素数(単精度,倍精度)ならびに疑似四倍精度DD(double-double)フォーマットに対しても,同様のアプローチによりSYMVカーネル(CHEMV,ZHEMV,WSYMV)の実装に成功し,高い実行性能を確認している。(著者抄録)
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (3件):
分類
JSTが定めた文献の分類名称とコードです
数値計算  ,  システムプログラミング一般  ,  システム最適化手法 
引用文献 (18件):
  • NVIDIA Corporation, The NVIDIA CUDA Basic Linear Algebra Subroutines, http://developer.nvidia.com/cublas
  • Innovative Computing Laboratory, University of Tennessee, Matrix Algebra on GPU and Multicore Architectures, http://icl.cs.utk.edu/magma
  • Sorensen, H. H. B., Auto-tuning Dense Vector and Matrix-Vector Operations for Fermi GPUs, Parallel Processing and Applied Mathematics, LNCS 7203 (2012) 619-629.
  • Sørensen, H. H. B., Auto-Tuning of Level 1 and Level 2 BLAS for GPUs, Concurrency Computat.: Pract. Exper., Wiley (2012) 1183-1198.
  • GPUlab: GLAS library version 0.0.2, http://gpulab.imm.dtu.dk/docs/glas_v0.0.2_C2050_cuda_4.0_1inux.tar.gz
もっと見る
タイトルに関連する用語 (3件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る