// Popular Articles

#transformer
#7802026-03-19

Self-Attention vs Cross-Attention bằng tay: cùng thuật toán, khác đúng một input

Tom Yeh (byhand.ai) đặt self-attention và cross-attention cạnh nhau trong cùng một workbook. Khác biệt duy nhất: nguồn của K và V. Score matrix của self là vuông 128×128, của cross là chữ nhật 64×128. Hai cơ chế, một thuật toán.

transformerattention-mechanismself-attention
6 phút đọc
#6282026-01-06

Biến Transformer thành Mamba thuần, không cần Attention: công thức distillation từ Apple, MILA, Flatiron

Nhóm nghiên cứu Apple – MILA – Flatiron vừa công bố HedgeMamba: công thức 2 bước distill Transformer thành Mamba thuần (không hybrid). Chỉ với 10B token (~2,7% ngân sách huấn luyện teacher), mô hình học trò đạt perplexity 14.11 so với 13.86 của Pythia-1B — gần như giữ nguyên hiệu năng mà vẫn thừa hưởng O(1) memory của SSM.

mambastate-space-modelscross-architecture-distillation
7 phút đọc
#2932025-07-21

35x nhanh hơn: KV cache + INT8 quantization trong transformer viết từ đầu bằng Rust + CUDA

Reese Chong tăng throughput inference từ 0.76 lên 27.29 tok/s và cắt 3.78 lần bộ nhớ KV cache — toàn bộ dựng tay trong Rust + CUDA, không đụng PyTorch hay cuBLAS.

kv-cacheint8-quantizationrust
7 phút đọc
#772025-04-04

Native Sparse Attention: the ACL 2025 Best Paper that makes 64k context 11.6× cheaper

DeepSeek + Peking University win ACL 2025 Best Paper with NSA — a sparse attention mechanism trained from scratch. 27B model beats dense baseline, runs 9× faster forward, 11.6× faster decoding at 64k on A100.

native-sparse-attentiondeepseekacl-2025
7 phút đọc