プレプリント
J-GLOBAL ID:202502221292963052   整理番号:25P0258140

AMLA:瞬間注意再スケーリングにおけるADDによるMUL【JST機械翻訳】

AMLA: MUL by ADD in FlashAttention Rescaling
arXiv掲載論文の撤回有無については、一次情報をご確認下さい。
著者 (11件):
資料名:
発行年: 2025年09月24日  プレプリントサーバーでの情報更新日: 2025年10月23日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
マルチヘッド潜在注意(MLA)は,大きな計算オーバヘッドと中間変数拡張を導入しながら,大規模言語モデルにおけるKVCacheメモリ利用を著しく削減する。これは,特に復号化フェーズにおいて,効率的なハードウェア実装に対する課題を提起する。本論文は,HuaweiのAscend NPUsのために特に最適化された高性能カーネルであるAscend MLA(AMLA)を紹介した。AMLAは2つのコアイノベーション上に構築される。(1)浮動小数点乗算を出力ブロック再スケーリングのための整数加算で置き換える新しいFlashAttentionベースのアルゴリズム,FP32とINT32表現の間の二値対応を活用する;(2)FLOPS利用を最大化する階層的タイリングによる予負荷パイプライン戦略:予負荷パイプラインはキューブバウンド性能を達成し,一方,階層的タイリングはキューブコア内のデータ移動と計算を重複する。実験により,Ascend 910 NPU(CloudMatrix384に統合)において,AMLAは614TFLOPSを達成し,理論的最大FLOPSの86.8%に達し,最先端のオープンソースFlashMLA実装を凌ぎ,そのFLOPS利用率はNVIDIA H800 SXM5上で66.7%に達することを示した。AMLAカーネルはHuaweiのCANNに統合され,すぐに放出される。【JST機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
血液の腫よう 
タイトルに関連する用語 (2件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る