抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本論文ではGPUにおいて3倍・4倍精度浮動小数点演算を実現し,線形計算への適用例としてLevel1-3の代表的なBLAS(Basic Linear Algebra Subprograms)ルーチンであるAXPY,GEMV,GEMMを実装して性能評価を行った結果を示す。4倍精度演算にはDouble-Double型(DD型)の4倍精度演算(DD演算)を用いた。一方で3倍精度演算として新たに,Double+Single型(D+S型)・Double+Int型(D+I型)の3倍精度フォーマットを提案し,内部の計算にDD演算を用いることで3倍精度演算を行う手法を実装した。NVIDIA Tesla M2090における性能評価では,3倍・4倍精度のAXPY・GEMVがメモリ律速となり,その実行時間はデータサイズに比例して,単精度ルーチンに対しておよそ3倍,4倍となることを示した。我々が提案した3倍精度演算は,3倍精度データに対するDD演算がメモリ律速となるケースにおいて,4倍精度演算に対する速度面での利点が主張できる。4倍精度は必要ないが倍精度では精度が不足する場合では,特にPCI Expressやネットワークの帯域が性能のボトルネックとなりやすいGPUクラスタ環境などで,4倍精度に対する3倍精度の有効性が期待できる。(著者抄録)