#3312025-08-09
FlashKDA: Moonshot mở mã kernel CUTLASS cho Kimi Delta Attention, prefill nhanh 2.22× trên H20
Moonshot AI vừa open-source FlashKDA — kernel CUTLASS C++ hiệu năng cao cho Kimi Delta Attention, đạt tốc độ prefill 1.72×–2.22× so với baseline Triton của flash-linear-attention trên H20, cắm thẳng vào FLA không đổi code model.