深層学習コンパイラTVMのベクトルマルチコア向けコード生成手法の検討

大西文彬; 大高凌聖; 藤田一輝; 末次智貴; 川角冬馬; 北村俊明; 笠原博徳; 木村啓二

文献

J-GLOBAL ID：202302264422921840 整理番号：23A2235223

深層学習コンパイラTVMのベクトルマルチコア向けコード生成手法の検討

Investigation of code generation techniques for vector multicore targeting using the deep learning compiler TVM

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=23A2235223&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=23A2235223&from=J-GLOBAL&jstjournalNo=U0451A") }}

著者 (8件)： , , , , , , ,
資料名：
巻： 2023 号： ARC-254 ページ： Vol.2023-ARC-254,No.8,1-8 (WEB ONLY) 発行年： 2023年07月27日
JST資料番号： U0451A 資料種別：会議録 (C)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

自動運転車やスマートロボットなどのIoTデバイスのような組み込み機器においても,高度な判断や制御をするために,深層学習による推論処理が広く利用されつつある.しかしながら,画像入力に対する推論処理で多用される畳み込み演算は計算量が大きく,消費電力の増大とそれによる発熱量の増大を招いてしまい,その結果組み込み機器に大容量のバッテリーが必要となったり,冷却装置のための大きなスペースが必要となったりする懸念がある.これはスマートロボットなどにおいては行動自由度の低下や筐体の大きさにも影響を与える.これに対して筆者等は,コンパイラ協調のOSCARベクトルマルチコアによる,深層学習処理の高速かつ低消費電力実行の実現を目指している.本マルチコアでは,既存の多くの学習モデルを利用すべく,そのコンパイルツールチェーンに深層学習コンパイラTVMを取り入れる.本稿ではOSCAR自動並列化コンパイラとTVMによるベクトルマルチコア用コンパイルツールチェーンの有効性を示すべく,TVMによるベクトルマルチコア用コード生成手法を提案・実装する.さらに提案手法を実装したTVMをOSCARコンパイラおよびNECを組み合わせ,ResNetの学習済み深層学習モデルをNECのベクトルマルチコアであるSX-Aurora TSUBASA上で評価した.評価では上記TVMの生成コードをOSCARコンパイラで並列化し,さらにNECコンパイラによりベクトル化した.評価の結果,提案手法実装前後の同コア実行時の実行時間を比較すると,1コア実行時に13.7倍,8コア時に21.5倍の速度向上をそれぞれ得た.(著者抄録)

, , , , , , , , , , , ,
, , , , ,

ニューロコンピュータ , 人工知能 , 言語プロセッサ

引用文献 (17件)：

Hirano, T., Yamamoto, H., Iizuka, S., Muto, K., Goto, T., Wake, T., Mikami, H., Takamura, M., Kimura, K. and Kasahara, H.: Evaluation of Automatic Power Reduction with OSCAR Compiler on Intel Haswell and ARM Cortex-A9 Multicores, Proceedings of the 27th International Workshop on Languages and Compilers for Parallel Computing (LCPC), LCPC (2014).
Kasahara, H., Kimura, K., Kitamura, T., Mikami, H., Morita, K., Fujita, K., Yamamoto, K. and Kawasumi, T.: OSCAR Parallelizing and Power Reducing Compiler and API for Heterogeneous Multicores: (Invited Paper), 2021 IEEE/ACM Programming Environments for Heterogeneous Computing (PEHC), pp. 10-19 (online), DOI: 10.1109/PEHC54839.2021.00007 (2021).
Abadi, M., Agarwal, A., Barham, P., Brevdo, E., Chen, Z., Citro, C., Corrado, G. S., Davis, A., Dean, J., Devin, M. et al.: TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems, arXiv preprint arXiv:1603.04467 (2016).
Paszke, A., Gross, S., Massa, F., Lerer, A., Bradbury, J., Chanan, G., Killeen, T., Lin, Z., Gimelshein, N., Antiga, L. et al.: PyTorch: An Imperative Style, High-Performance Deep Learning Library, arXiv preprint arXiv:1912.01703 (2019).
Bai, J., L. F. Z. K. e. a.: ONNX: Open Neural Network Exchange, GitHub (online).

, , , , ,

前のページに戻る