プレプリント
J-GLOBAL ID:202202217099171522   整理番号:22P0281683

超並列アーキテクチャ上の効率的なメモリ外スパースMTTKRP【JST・京大機械翻訳】

Efficient, Out-of-Memory Sparse MTTKRP on Massively Parallel Architectures
著者 (9件):
資料名:
発行年: 2022年01月29日  プレプリントサーバーでの情報更新日: 2022年06月27日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
※このプレプリント論文は学術誌に掲載済みです。なお、学術誌掲載の際には一部内容が変更されている可能性があります。
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
テンソル分解(TD)は,高次元(マルチモーダル)スパースデータから潜在情報を抽出するための重要な方法である。本研究では,大規模並列GPUアーキテクチャにおける基本的TD演算を加速するための新しいフレームワークを提案した。以前の研究とは対照的に,提案したブロック線形化座標(BLCO)フォーマットは,単一テンソルコピーで動作する統一実装を用いたテンソルアルゴリズムの効率的なメモリ外計算を可能にする。適応ブロッキングと線形化戦略はGPU装置の資源制約を満たすだけでなく,データインデクシングを加速し,制御フローとメモリアクセス不規則性を除去し,カーネル発射オーバヘッドを低減する。GPU上の実質的な同期コストに対処するために,筆者らは,任意の補助情報を保持し,あるいは特定のモード方向において非ゼロ要素を保存せずに,それらの矛盾する更新を発見,解決するために,メモリアクセスに代わって,スレッドが協調する代わりに,スレッドを協調する日和見的コンフリクト分解アルゴリズムを導入した。結果として,著者らのフレームワークは,以前の最先端技術と比較して優れたメモリ内性能を提供し,メモリ外テンソルを処理する唯一のフレームワークである。最新のIntelとNVIDIA GPUにおいて,BLCOは,実世界のスパーステンソルの範囲における最先端の混合モード圧縮スパースファイバ(MM-CSF)上で,2.12-2.6X幾何平均高速化(最大33.35X高速化)を達成した。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (3件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識  ,  ディジタル計算機方式一般  ,  専用演算制御装置 
タイトルに関連する用語 (1件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る