超並列アーキテクチャ上の効率的なメモリ外スパースMTTKRP【JST・京大機械翻訳】

Nguyen Andy; Helal Ahmed E.; Checconi Fabio; Laukemann Jan; Tithi Jesmin Jahan; Soh Yongseok; Ranadive Teresa; Petrini Fabrizio; Choi Jee W.

プレプリント

J-GLOBAL ID：202202217099171522 整理番号：22P0281683

超並列アーキテクチャ上の効率的なメモリ外スパースMTTKRP【JST・京大機械翻訳】

Efficient, Out-of-Memory Sparse MTTKRP on Massively Parallel Architectures

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (9件)： , , , , , , , ,
資料名：
発行年： 2022年01月29日プレプリントサーバーでの情報更新日： 2022年06月27日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

※このプレプリント論文は学術誌に掲載済みです。なお、学術誌掲載の際には一部内容が変更されている可能性があります。

テンソル分解(TD)は,高次元(マルチモーダル)スパースデータから潜在情報を抽出するための重要な方法である。本研究では,大規模並列GPUアーキテクチャにおける基本的TD演算を加速するための新しいフレームワークを提案した。以前の研究とは対照的に,提案したブロック線形化座標(BLCO)フォーマットは,単一テンソルコピーで動作する統一実装を用いたテンソルアルゴリズムの効率的なメモリ外計算を可能にする。適応ブロッキングと線形化戦略はGPU装置の資源制約を満たすだけでなく,データインデクシングを加速し,制御フローとメモリアクセス不規則性を除去し,カーネル発射オーバヘッドを低減する。GPU上の実質的な同期コストに対処するために,筆者らは,任意の補助情報を保持し,あるいは特定のモード方向において非ゼロ要素を保存せずに,それらの矛盾する更新を発見,解決するために,メモリアクセスに代わって,スレッドが協調する代わりに,スレッドを協調する日和見的コンフリクト分解アルゴリズムを導入した。結果として,著者らのフレームワークは,以前の最先端技術と比較して優れたメモリ内性能を提供し,メモリ外テンソルを処理する唯一のフレームワークである。最新のIntelとNVIDIA GPUにおいて,BLCOは,実世界のスパーステンソルの範囲における最先端の混合モード圧縮スパースファイバ(MM-CSF)上で,2.12-2.6X幾何平均高速化(最大33.35X高速化)を達成した。【JST・京大機械翻訳】

, , , , , , , ,
, , , , , , 【Automatic Indexing@JST】

パターン認識 , ディジタル計算機方式一般 , 専用演算制御装置

前のページに戻る