// Popular Articles
Self-Attention vs Cross-Attention bằng tay: cùng thuật toán, khác đúng một input
Tom Yeh (byhand.ai) đặt self-attention và cross-attention cạnh nhau trong cùng một workbook. Khác biệt duy nhất: nguồn của K và V. Score matrix của self là vuông 128×128, của cross là chữ nhật 64×128. Hai cơ chế, một thuật toán.
Biến Transformer thành Mamba thuần, không cần Attention: công thức distillation từ Apple, MILA, Flatiron
Nhóm nghiên cứu Apple – MILA – Flatiron vừa công bố HedgeMamba: công thức 2 bước distill Transformer thành Mamba thuần (không hybrid). Chỉ với 10B token (~2,7% ngân sách huấn luyện teacher), mô hình học trò đạt perplexity 14.11 so với 13.86 của Pythia-1B — gần như giữ nguyên hiệu năng mà vẫn thừa hưởng O(1) memory của SSM.
35x nhanh hơn: KV cache + INT8 quantization trong transformer viết từ đầu bằng Rust + CUDA
Reese Chong tăng throughput inference từ 0.76 lên 27.29 tok/s và cắt 3.78 lần bộ nhớ KV cache — toàn bộ dựng tay trong Rust + CUDA, không đụng PyTorch hay cuBLAS.
Native Sparse Attention: the ACL 2025 Best Paper that makes 64k context 11.6× cheaper
DeepSeek + Peking University win ACL 2025 Best Paper with NSA — a sparse attention mechanism trained from scratch. 27B model beats dense baseline, runs 9× faster forward, 11.6× faster decoding at 64k on A100.