抄録/ポイント: 抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
NVIDIA GPUのカーネルプログラムにおいてスレッド数の選択は性能に大きな影響を与えることが知られているが,最適なスレッド数を理論的に一意に決定する方法は明らかではない。本稿では性能がメモリ律速となるBLASルーチンであるSAXPY,SGEMV,STRMVにおいて,計算する問題サイズに対して最適なスレッド数を決定するための自動チューニング手法を検討した。提案手法は2つの自動チューニング機構で構成される。まず,ある問題サイズに対するカーネルのサンプリング実行から,デバイスおよびカーネル固有のチューニングパラメータを決定するオフライン自動チューニングを行う。そしてそれらのパラメータに基づいて,問題サイズに応じた最適なスレッド数を,ある性能モデルを用いてオンライン自動チューニングで決定する。評価実験では,3つのNVIDIA GPUアーキテクチャ(Fermi,Kepler,Maxwell)において,スレッド数の選択がカーネルの性能に与える影響を示した上で,提案する手法によって多くの場合に最適なスレッド数を選択できることを示す。(著者抄録)