抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
汎用CPUコアに加え特定処理を高効率で実行可能なアクセラレータを搭載したヘテロジニアスマルチコアが広く普及している。しかしながら,ヘテロジニアスマルチコアでは様々な計算資源へのタスクスケジューリングやデータ転送コード挿入等多くの負担をプログラマが負う必要がある等プログラミングが困難である。そこで本稿では,複数CPU及びアクセラレータを持つヘテロジニアスマルチコアに対して,逐次プログラムを入力とし自動的に実行効率の良い並列プログラムを生成する,ヘテロジニアスマルチコア向け自動並列化コンパイラフレームワークを提案する。本フレームワークでは自動並列化コンパイラとアクセラレータコンパイラとのインターフェースとして新たに提案するヘテロジニアスマルチコア向けOSCAR APIを利用することで,逐次Cプログラムを自動的に汎用コアとアクセラレータコアにタスクを配分し,高い性能を実現する。本手法を情報家電用ヘテロジニアスマルチコアプロセッサRP-Xをターゲットとして,AACエンコーダ及びOptical Flow計算の自動並列化性能を評価した。その結果,8つの汎用CPUコア及び4つのアクセラレータコアを使用した場合,逐次実行時と比較してOptical Flow計算で約12倍(OSCARコンパイラ+アクセラレータコンパイラ使用時),約32倍(OSCARコンパイラ+既存ライブラリ使用時),AACエンコーダで約16倍(OSCARコンパイラ+既存ライブラリ使用時)の性能向上が得られ,ヘテロジニアスマルチコアを対象とした汎用的なコンパイラフレームワークを実現可能であることがわかった。(著者抄録)