抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
GPUは,高性能計算のためのますます普及が,GPUプログラムの性能を最適化する一般的に時間がかかり,非自明なプロセスである。この複雑性は,CUDAとOpenCLのような標準的GPUプログラミングモデルの低抽象レベルに起因している:GPUの全能力を利用するためにプログラマは,低レベルの操作を調整するために必要である。ソフトウェアの生産性や可搬性の点で,より魅力的なアプローチは,並列アルゴリズムを表現するための高レベル抽象化を提供することにより,GPUプログラミングを容易にするであろう。OpenMPは指令ベース共有メモリ並列プログラミングモデルであり,長年の間広く用いられている。OpenMP4.0年以降,GPUプラットフォームは加速器計画法を用いたOpenMPの並列処理用高水準抽象を拡張することにより支持された。この拡張は,プログラマは標準C/C++またはFortran言語におけるGPUプログラムを書くことを可能にする,GPUアーキテクチャのあまりにも多くの詳細を露見させることなく。しかし,そのような高レベル並列プログラミング戦略は一般的にコンパイラに付加的なプログラム最適化,低レベルプログラミングモデルと完全に手同調コードよりも低い性能をもたらすを課した。高レベルGPUプログラムを作成し,最適化することによって潜在的な性能向上を研究するために,本論文では,1)IBM POWER8TMとNVIDIA Tesla GPUプラットフォーム上でのOpenMP4×ベンチマークのセットを評価し,2)IBMXLとclang/LLVMコンパイラによる手書きCUDAと自動的に生成されたGPUプログラムの間で同等の性能解析を行った。Copyright 2017 The Institute of Electrical and Electronics Engineers, Inc. All Rights reserved. Translated from English into Japanese by JST【Powered by NICT】