FINN行列ベクトル計算ユニットのRTL実装について【JST・京大機械翻訳】

Alam Syed Asad; Gregg David; Gambardella Giulio; Preusser Thomas; Blott Michaela

プレプリント

J-GLOBAL ID：202202203335860279 整理番号：22P0280569

FINN行列ベクトル計算ユニットのRTL実装について【JST・京大機械翻訳】

On the RTL Implementation of FINN Matrix Vector Compute Unit

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (5件)： , , , ,
資料名：
発行年： 2022年01月27日プレプリントサーバーでの情報更新日： 2022年04月10日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

FPGAベース加速器は,データフローアーキテクチャまたはカスタムデータタイプによる特殊化度の増大により,性能のスケール化能力により,深層ニューラルネットワークにとってより一般的になっている。ソフトウェアエンジニアとデータ科学者の障壁を減らすために,FPGA,C++とOpenCLベースの設計エントリを高レベル合成(HLS)で導入する。それらはレジスタ転送レベル(RTL)ベースの設計と比較してより高い抽象化を提供する。HLSは,多次元テンソル,畳込み層または並列性のためのオプションを評価するとき,コード探査において,より迅速な開発時間,より良い保全性,およびより多くの柔軟性を提供する。このように,HLSはFINNとhls4mlのようなDNN加速器生成フレームワークによって採用された。本論文では,FINNのための代替バックエンドRTLライブラリを提示した。設計次元のスペクトルにわたって,RTLベースの実装対元のHLSバリアントを,調べ,評価した。より小さな設計パラメータに対して,RTLは大幅に小さい回路を生成することを示した。しかし,大きな回路では,RTLベース設計のルックアップテーブル(LUT)数は,約15%まで僅かに高い。一方,HLSは,よりフリップフロップ(FFs)(次数の桁増加)とブロックRAM(BRAMs)(2倍)を一貫して必要とする。また,これは臨界経路遅延に影響し,RTLは80%まで著しく速い回路を生成する。さらに,RTLは,合成時間の10×減少からも有利であった。最後に,結果をネットワーク侵入検出に用いる多層パーセプトロン(MLP)ネットワークの実世界使用事例を用いて実際に検証した。全体として,HLSフレームワークがハードウェア設計を符号化するので,設計入力における容易さの利点は,資源便益による合成時間削減と比較して,より重要で,これはRTL抽象を魅力的代替にする。【JST・京大機械翻訳】

, , , , , , , , , , , ,
, , 【Automatic Indexing@JST】

半導体集積回路

, , , ,

前のページに戻る