抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
近年,プロセッサの演算性能向上に対してメモリやネットワークのバンド幅不足が問題となっている。浮動小数点演算において倍精度演算で精度が不足する場合,4倍精度演算を用いることが検討されてきたが,データアクセス量が少なくて済む3倍精度演算が有効となるケースが存在すると考えられる。本研究では3倍精度数を倍精度数と単精度数に分けて格納するDouble+Single型3倍精度型(D+S型)およびD+S型3倍精度演算(D+S型演算)を提案し,GPUによる3倍精度のBLAS(Basic Linear Algebra Subprograms)ルーチンを実装して,その性能をTesla C2050で評価した。D+S型演算にはDouble-Double型4倍精度演算(DD型演算)のアルゴリズムにおいて一部演算を単精度演算で行う手法を実装したが,倍精度数-単精度数の型変換が多発しD+S型演算はDD型演算よりも高コストとなった。そのためBLASの入出力をD+S型で行い,演算にはDD型演算を用いる方式を実装した。TeslaC2050では3倍精度AXPYがCUBLASの倍精度AXPYの約1.57倍の実行時間,3倍精度GEMVが倍精度GEMVの約1.69倍の実行時間となり,それぞれ4倍精度ルーチンよりも高速な性能を示した。本稿ではGPUにおけるD+S型およびD+S型演算の有効性について議論する。(著者抄録)