GPUによる3倍精度浮動小数点演算の検討

椋木大地; 高橋大介

文献

J-GLOBAL ID：201202229727502070 整理番号：12A0101856

GPUによる3倍精度浮動小数点演算の検討

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=12A0101856&COPY=1") }}
このテーマを更に深掘りする（JDreamⅢへ） {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=12A0101856&from=J-GLOBAL&jstjournalNo=Z0031C") }}

著者 (2件)： ,
資料名：
巻： 2011 号： 4 ページ： ROMBUNNO.ARC-197,NO.23 発行年： 2011年12月15日
JST資料番号： Z0031C ISSN： 2186-2583 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

近年,プロセッサの演算性能向上に対してメモリやネットワークのバンド幅不足が問題となっている。浮動小数点演算において倍精度演算で精度が不足する場合,4倍精度演算を用いることが検討されてきたが,データアクセス量が少なくて済む3倍精度演算が有効となるケースが存在すると考えられる。本研究では3倍精度数を倍精度数と単精度数に分けて格納するDouble+Single型3倍精度型(D+S型)およびD+S型3倍精度演算(D+S型演算)を提案し,GPUによる3倍精度のBLAS(Basic Linear Algebra Subprograms)ルーチンを実装して,その性能をTesla C2050で評価した。D+S型演算にはDouble-Double型4倍精度演算(DD型演算)のアルゴリズムにおいて一部演算を単精度演算で行う手法を実装したが,倍精度数-単精度数の型変換が多発しD+S型演算はDD型演算よりも高コストとなった。そのためBLASの入出力をD+S型で行い,演算にはDD型演算を用いる方式を実装した。TeslaC2050では3倍精度AXPYがCUBLASの倍精度AXPYの約1.57倍の実行時間,3倍精度GEMVが倍精度GEMVの約1.69倍の実行時間となり,それぞれ4倍精度ルーチンよりも高速な性能を示した。本稿ではGPUにおけるD+S型およびD+S型演算の有効性について議論する。(著者抄録)

, , , , , , , ,
,

演算方式 , 専用演算制御装置 , 計算機システム開発

前のページに戻る