文献
J-GLOBAL ID:200902205248352518   整理番号:08A0254223

行列プロセッサ上でのレベル3BLASおよびLU分解

Level-3 BLAS and LU Factorization on a Matrix Processor
著者 (2件):
資料名:
巻: 49  号: SIG2(ACS21)  ページ: 37-52  発行年: 2008年03月15日 
JST資料番号: Z0778A  ISSN: 0387-5806  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: 日本 (JPN)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
クロック周波数の増大がその物理限界に近づくに従って,性能向上に対する優れたアプローチは,科学,工学,信号処理アプリケーションにおける異なる負荷の処理を行うために,汎用プロセッサに対するコプロセッサとしてより多くのコアを統合して並列度を高める方式がある。本論文では,行列ベースカーネル加速化のために2Dトーラス行列ユニットの中で密結合されたb×bシンプルコアにより強化されたスカラーユニットから成る多数コア行列プロセッサモデルを提案した。データのロード/ストアーは,メモリと2つのスカラーおよび行列処理ユニット間でb×bブロックのデータを移動させる脱結合データアクセスユニットを用いて計算処理とオーバーラップさせる。行列ユニットの演算は主に,細粒度b×b行列乗算-加算(MMA)演算の処理を行う。ここでは,データのロード/ストアーのオーバーラップを実現するために,MMA演算として行列転置およびスキューイングを含むデータアラインメント演算の定式化を行った。提案行列プロセッサ上で2つの基本線形代数アルゴリズムを設計し評価した。これらアルゴリズムは,線形方程式系を解くときの主要ステップであるレベル3BLASカーネルであるGEMMと部分主軸を用いたLU分解である。GEMMカーネルに対し,FLOP/サイクルで計測された最大計算速度は,異なる行列サイズnとブロックサイズbに近づいた。比較的大きなnの値に対するLU分解の速度は,モデルパラメータに依存して最大速度の約50%~90%の範囲であった。全体として,解析的結果により,行列ベースアプリケーションの高速化に対しては行列ユニットの利用がメリットを持つことを示した。(翻訳著者抄録)
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (3件):
分類
JSTが定めた文献の分類名称とコードです
ディジタル計算機方式一般  ,  専用演算制御装置  ,  数値計算 
引用文献 (29件):
もっと見る
タイトルに関連する用語 (3件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る