抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
エッジデバイス上のAIは,最近数年間にわたって普及している。エッジデバイス上のAI/MLモデルの配置と加速に焦点を当てた多くの研究プロジェクトTVM[5]TensorFlow lite[6]がある。これらの解は,サポートされたハードウェアバックエンド上で最良の性能を達成するために,オペレータ融合,入れ子並列化,メモリ待ち時間隠蔽[5]などを用いて,エッジデバイス上のAI/MLモデルを加速するために,主にデータ並列性を使用した。しかし,ハードウェアが複数の異種ハードウェアバックエンドをサポートするとき,最適性能を達成するためにデータ並列性に加えてタスク並列性をサポートすることが重要である。タスクレベル並列性[7][8]は,チップ上のマルチプロセッサシステム(MPSoC)で利用可能な様々な異質なバックエンドでスケジュールできる複数のタスクにAI/MLモデルをブレークダウンするのを助ける。提案解法では,AI/ML計算グラフを取り上げ,DAGの各ノードが元の計算グラフのサブグラフを表すような有向非巡回グラフ(DAG)にそれを破壊する。DAGのノードは,対応するハードウェアバックエンドのための最適性能を達成するために,自動同調器を用いて発生する。ノードは,標的ハードウェアバックエンドのためにバイナリ実行可能にコンパイルされ,著者らの機械学習フレームワーク,XTA[9]を拡張し,DAGを生成する。XTA実行時間はDAGを分析し,スケジューリング構成を生成する。DAGのノードを依存性のために解析して,それに応じて並列化またはパイプライン化した。DAGにおけるノードの実行を並列化することにより,現在の解に対して30%の改善を見る。その性能は,並列にDAGのノードを実行するためにMPSoCのより多くのハードウェアバックエンドコアを使用することによってさらに最適化することができて,それは既存の解法において欠けた。Copyright 2022 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】