時分割多重実行型シストリックリングの実装と評価

菊谷雄真; 山野龍佑; 一倉孝宏; 中島康彦

文献

J-GLOBAL ID：201802245108643409 整理番号：18A0322469

時分割多重実行型シストリックリングの実装と評価

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=18A0322469&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=18A0322469&from=J-GLOBAL&jstjournalNo=S0532B") }}

著者 (4件)： , , ,
資料名：
巻： 117 号： 378(CPSY2017 106-132) ページ： 31-36 発行年： 2018年01月11日
JST資料番号： S0532B ISSN： 0913-5685 資料種別：会議録 (C)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

機械学習アルゴリズムの進歩が目覚ましい。特にConvolutional Neural Network(CNN)は有用性が高く,高速に畳み込み演算を行うことが可能な計算デバイスが希求されている。また,微細化のロードマップは更新されているが,代わりに単位面積当たりの製造コストが増大している。そのため,電力効率と面積効率に優れるCNN用Domain-Specific Accelerator(DSA)提案されてきた。しかし,アルゴリズムの研究は日進月歩であり,DSAは陳腐化が危惧されている。また,Lightfield画像処理や3次元空間を対象としたシミュレーションといったアプリケーションにまで目を向けると,これらもアドレスの参照範囲が広いステンシル計算である。我々はDSAよりもプログラマビリティを持ち,離散ステンシル計算にも対応したアクセラレータとしてEMAXVを提案してきた。しかし,CGRAの欠点である配線混雑と局所記憶の帯域拡張のためのデータコピーが面積当たりの動作効率を著しく下げることが分かってきた。本稿では,欠点を解決するために演算ブロックをマルチスレッド化して動作させるIMAXの実装について説明し,EMAXVと同等性能を省面積で実現できることを示す。また,FPGAを用いた実装結果では,EMAXVからLUTを55.9%,BRAMを24.2%まで削減可能であり,TSMC28nmプロセスを用いた論理合成結果では,面積を34.9%まで削減可能であることが明らかとなった。(著者抄録)

, , , , , , , , , ,
, , ,

人工知能 , 専用演算制御装置 , 半導体集積回路

引用文献 (8件)：

Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton, ′′ImageNet Classification with Deep Convolutional Neural Networks,′′ NIPS2012
Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, ′′Deep Residual Learning for Image Recognition,′′ in arXiv: 1512.03385, 2015.
Wenyan Lu, Guihai Yan, Jiajun Li, Shijun Gong, Yinhe Han, Xiaowei Li, ′′FlexFlow: A Flexible Dataflow Accelerator Architecture for Convolutional Neural Networks,′′ HPCA2017
Norman P. Jouppi, et al. ′′In-Datacenter Performance Analysis of a Tensor Processing Unit,′′ ISCA2017
Tony Nowatzki, Vinay Gangadhar, Karthikeyan Sankaralingam, Greg Wright : Domain Specialization Is Generally Unnecessary for Accelerators, pp.40-50, IEEE MICRO, May/June 2017

, ,

前のページに戻る