抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
対称行列ベクトル積(SYMV)は行列の対称性を利用して要求バンド幅を半減できる演算である。適切な最適化技法を利用することで,一般行列ベクトル積(GEMV)よりも2倍の性能を示すことが期待される。本研究では,対称性を利用する際に考慮しなくてはならない複数スレッドによるベクトルデータへの書き込み競合に対して,アトミック演算を用いたmutexの実装を工夫することによりアクセス順制御を実現している。これにより,CUBLAS等で指摘されている「実行毎に丸め誤差の範囲で演算結果が異なる」という現象を回避できる。また,既存研究ではスレッドブロック形状が1次元であったものを2次元に拡張し,計算コア数を増加させることができるようになった。本研究のもう一つのポイントは自動チューニング技術(AT)による最適パラメタ探索により高性能カーネルの構築を実現していることにある。2次元ブロック化によって広範囲に分布するパラメタ空間から自動で最適パラメタ値を探索し,少々時間を要するものの最適化された高性能SYMVをGPUアーキテクチャ毎にビルドすることができる。実際,最適化されたSSYMV(単精度版SYMV)カーネルが,GeForce GTXTitan Black上で211GFLOPS(対最大バンド幅62.8%)を記録している。さらに,実数(単精度や倍精度)以外の数値フォーマットである複素数(単精度,倍精度)ならびに疑似四倍精度DD(double-double)フォーマットに対しても,同様のアプローチによりSYMVカーネル(CHEMV,ZHEMV,WSYMV)の実装に成功し,高い実行性能を確認している。(著者抄録)