抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
近年,計算機の演算性能向上によりDeep Learning等機械学習アルゴリズムの性能が大きく向上している。実社会での活用のため,組み込み機器における機械学習アルゴリズム実装の需要はますます高まっている。しかし,機械学習アルゴリズムで広く利用されているGPGPUでは組み込み機器における制約を満たすことが困難である。我々は,プログラミング容易性を確保しつつ,電力効率と面積効率に長けた演算器とローカルメモリを備えるユニットを一次元に配置したリニアアレイIMAXを提案してきた。しかし,多重ループ実行時の起動オーバヘッドが課題であった。起動オーバヘッド削減のためには多重ループの一括実行と途中結果の更新が必要である。本稿では,IMAXの演算ユニット内にフィードバックパスを設け,多重ループ制御とローカルメモリのRead-Modify-Writeを可能とする改善を行い,FPGA SoCと大規模FPGAを用いたARMv8+IMAXプロトタイプを用いて評価を行った。その結果,プロトタイプシステム上の改良版IMAXで,従来版IMAXに比べて,行列積で4.28倍,畳み込み演算では5.38倍の実行性能を有することが明らかとなった。(著者抄録)