文献
J-GLOBAL ID:201202229727502070   整理番号:12A0101856

GPUによる3倍精度浮動小数点演算の検討

著者 (2件):
資料名:
巻: 2011  号:ページ: ROMBUNNO.ARC-197,NO.23  発行年: 2011年12月15日 
JST資料番号: Z0031C  ISSN: 2186-2583  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: 日本 (JPN)  言語: 日本語 (JA)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
近年,プロセッサの演算性能向上に対してメモリやネットワークのバンド幅不足が問題となっている。浮動小数点演算において倍精度演算で精度が不足する場合,4倍精度演算を用いることが検討されてきたが,データアクセス量が少なくて済む3倍精度演算が有効となるケースが存在すると考えられる。本研究では3倍精度数を倍精度数と単精度数に分けて格納するDouble+Single型3倍精度型(D+S型)およびD+S型3倍精度演算(D+S型演算)を提案し,GPUによる3倍精度のBLAS(Basic Linear Algebra Subprograms)ルーチンを実装して,その性能をTesla C2050で評価した。D+S型演算にはDouble-Double型4倍精度演算(DD型演算)のアルゴリズムにおいて一部演算を単精度演算で行う手法を実装したが,倍精度数-単精度数の型変換が多発しD+S型演算はDD型演算よりも高コストとなった。そのためBLASの入出力をD+S型で行い,演算にはDD型演算を用いる方式を実装した。TeslaC2050では3倍精度AXPYがCUBLASの倍精度AXPYの約1.57倍の実行時間,3倍精度GEMVが倍精度GEMVの約1.69倍の実行時間となり,それぞれ4倍精度ルーチンよりも高速な性能を示した。本稿ではGPUにおけるD+S型およびD+S型演算の有効性について議論する。(著者抄録)
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (3件):
分類
JSTが定めた文献の分類名称とコードです
演算方式  ,  専用演算制御装置  ,  計算機システム開発 
タイトルに関連する用語 (2件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る