Tất cả bài viết

// Popular Articles

#flash-linear-attention

#3312025-08-09

FlashKDA: Moonshot mở mã kernel CUTLASS cho Kimi Delta Attention, prefill nhanh 2.22× trên H20

Moonshot AI vừa open-source FlashKDA — kernel CUTLASS C++ hiệu năng cao cho Kimi Delta Attention, đạt tốc độ prefill 1.72×–2.22× so với baseline Triton của flash-linear-attention trên H20, cắm thẳng vào FLA không đổi code model.

flashkdakimi-delta-attentioncutlass

6 phút đọc