テンソルox:未利用テンソルコア上のニューラル近似によるGPUアプリケーションの加速【JST・京大機械翻訳】

Ho Nhut-Minh; Wong Weng-Fai

文献

J-GLOBAL ID：202102296825401118 整理番号：21A2270424

テンソルox:未利用テンソルコア上のニューラル近似によるGPUアプリケーションの加速【JST・京大機械翻訳】

Tensorox: Accelerating GPU Applications via Neural Approximation on Unused Tensor Cores

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=21A2270424&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=21A2270424&from=J-GLOBAL&jstjournalNo=T0882A") }}

著者 (2件)： ,
資料名：
巻： 33 号： 2 ページ： 429-443 発行年： 2022年
JST資料番号： T0882A ISSN： 1045-9219 CODEN： ITDSEO 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

深層学習の要求により,GPUを含む多くのハードウェアアクセラレータは,行列演算を加速するために特殊化したテンソル処理ユニットを含むことを始めている。しかし,大きな高密度行列演算をほとんど有しない汎用GPUアプリケーションは,これらのテンソルユニットから利益を得ることができない。本論文では,近似可能な非深層学習アプリケーションのための最近のGPU上で利用可能な半精度テンソルコアを利用するフレームワークであるTensoroxを提案した。本質的に,浅いニューラルネットワークを近似する関数の入出力マッピングに基づいて訓練した。この実装における鍵革新は,近似ニューラルネットワークの多重インスタンスを並列に実行するために,Nvidia GPUにおける小次元制約テンソル演算の使用である。適切なスケーリングと訓練法により,著者らの近似は,半精度の元のプログラムをナイーブに走るより高い全体精度をもたらした。さらに,Tensoroxは近似の程度の実行時間調整を可能にする。テストされた10のベンチマークに対して,著者らは,単一精度浮動点におけるオリジナルと比較して,2から112の高速化を達成し,一方,ほとんどのアプリケーションにおいて10パーセント以下の近似による誤差を維持した。Copyright 2021 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , , , , , ,
, , , , , 【Automatic Indexing@JST】

パターン認識 , 人工知能

, , , , ,

前のページに戻る