ENGLISH 使い方
文献、特許、研究者などの科学技術情報サイト

この文献と内容が近い文献

この文献と内容が近い研究者

この文献と内容が近い特許

この文献と内容が近い研究課題

この文献の著者と推定される研究者

この文献を引用している文献

この文献を引用している特許

文献
J-GLOBAL ID:201702217404421941   整理番号:17A0418303

コンシューマレンジのGPUに最適化した固有値ソルバーの実装と評価

クリップ
著者 (2件):
資料名:
巻: 2016  号: HPC-157  ページ: Vol.2016-HPC-157,No.7,1-9 (WEB ONLY)  発行年: 2016年12月14日 
JST資料番号: U0451A  資料種別: 会議録 (C)
記事区分: 原著論文  発行国: 日本 (JPN)  言語: 日本語 (JA)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
コンシューマレンジのGPUであるGeForceや組み込み系GPUのTegraではHPC向けの機能を削いでおり,デバイスメモリの転送能力は200GB/sを超えるハイエンドモデル並みだが倍精度と単精度の演算性能バランスが1:32と著しく悪いものが多い。このようなGPUを用いた数値計算ではハイエンドGPUとは異なるアルゴリズムや実装の選択が必要となる。本報告ではGPU向け固有値ソルバーであるEigen-GとMAGMAの固有値計算ルーチンと対して,その性能評価をDP性能とB/F値のバランスの観点から行う。B/F値が相対的に高いGPU環境下では古典的なアルゴリズムである1-stageアルゴリズムが高速であり,全固有値・固有ベクトルを計算する必要がある場合にはB/F値が低いハイエンドGPUや現代的なCPU環境における選択とは異なることが数値実験からも明らかになった。さらに,単精度演算器を用いて倍精度演算を模擬するdouble-float技術(DF)を使用して実装したDGEMM関数を用いてコンシューマレンジGPU向けの最適化を施す。DF版DGEMMを用いた固有値ソルバEigen-Gの実行性能はGeForce GTX1080上でN=10000の固有値問題を解いたときに20秒であり(DP版では21.4秒),7%程度の高速化が認められる。測定誤差は相対残差が|A-XΤΓX|1=(N|A|)=6.0×10-18,直交誤差が|XΤX-I|1/N=1.3×10-15であり,倍精度での演算と比較して10進数で1ないしは2桁程度の劣化で済んでいる。実用上はDF版DGEMMを使用したEigen-Gを用いることで十分な速度性能と演算精度を保証できることが分かった。(著者抄録)
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
数値計算  ,  専用演算制御装置 
引用文献 (15件):
もっと見る

前のページに戻る