抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
クロック周波数の増大がその物理限界に近づくに従って,性能向上に対する優れたアプローチは,科学,工学,信号処理アプリケーションにおける異なる負荷の処理を行うために,汎用プロセッサに対するコプロセッサとしてより多くのコアを統合して並列度を高める方式がある。本論文では,行列ベースカーネル加速化のために2Dトーラス行列ユニットの中で密結合されたb×bシンプルコアにより強化されたスカラーユニットから成る多数コア行列プロセッサモデルを提案した。データのロード/ストアーは,メモリと2つのスカラーおよび行列処理ユニット間でb×bブロックのデータを移動させる脱結合データアクセスユニットを用いて計算処理とオーバーラップさせる。行列ユニットの演算は主に,細粒度b×b行列乗算-加算(MMA)演算の処理を行う。ここでは,データのロード/ストアーのオーバーラップを実現するために,MMA演算として行列転置およびスキューイングを含むデータアラインメント演算の定式化を行った。提案行列プロセッサ上で2つの基本線形代数アルゴリズムを設計し評価した。これらアルゴリズムは,線形方程式系を解くときの主要ステップであるレベル3BLASカーネルであるGEMMと部分主軸を用いたLU分解である。GEMMカーネルに対し,FLOP/サイクルで計測された最大計算速度は,異なる行列サイズnとブロックサイズbに近づいた。比較的大きなnの値に対するLU分解の速度は,モデルパラメータに依存して最大速度の約50%~90%の範囲であった。全体として,解析的結果により,行列ベースアプリケーションの高速化に対しては行列ユニットの利用がメリットを持つことを示した。(翻訳著者抄録)