AMLA:瞬間注意再スケーリングにおけるADDによるMUL【JST機械翻訳】

Liao Qichen; Hu Chengqiu; Miao Fangzheng; Li Bao; Liu Yiyang; Lyu Junlong; Jiang Lirui; Wang Jun; Zheng Lingchao; Li Jun; Fan Yuwei

プレプリント

J-GLOBAL ID：202502221292963052 整理番号：25P0258140

AMLA:瞬間注意再スケーリングにおけるADDによるMUL【JST機械翻訳】

AMLA: MUL by ADD in FlashAttention Rescaling

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

arXiv掲載論文の撤回有無については、一次情報をご確認下さい。

著者 (11件)： , , , , , , , , , ,
資料名：
発行年： 2025年09月24日プレプリントサーバーでの情報更新日： 2025年10月23日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント言語：英語 (EN)

マルチヘッド潜在注意(MLA)は,大きな計算オーバヘッドと中間変数拡張を導入しながら,大規模言語モデルにおけるKVCacheメモリ利用を著しく削減する。これは,特に復号化フェーズにおいて,効率的なハードウェア実装に対する課題を提起する。本論文は,HuaweiのAscend NPUsのために特に最適化された高性能カーネルであるAscend MLA(AMLA)を紹介した。AMLAは2つのコアイノベーション上に構築される。(1)浮動小数点乗算を出力ブロック再スケーリングのための整数加算で置き換える新しいFlashAttentionベースのアルゴリズム,FP32とINT32表現の間の二値対応を活用する;(2)FLOPS利用を最大化する階層的タイリングによる予負荷パイプライン戦略:予負荷パイプラインはキューブバウンド性能を達成し,一方,階層的タイリングはキューブコア内のデータ移動と計算を重複する。実験により,Ascend 910 NPU(CloudMatrix384に統合)において,AMLAは614TFLOPSを達成し,理論的最大FLOPSの86.8%に達し,最先端のオープンソースFlashMLA実装を凌ぎ,そのFLOPS利用率はNVIDIA H800 SXM5上で66.7%に達することを示した。AMLAカーネルはHuaweiのCANNに統合され,すぐに放出される。【JST機械翻訳】

, , , , , , , , , , , , , ,
, 【Automatic Indexing@JST】

血液の腫よう

ライセンス情報：

前のページに戻る