#2932025-07-21
35x nhanh hơn: KV cache + INT8 quantization trong transformer viết từ đầu bằng Rust + CUDA
Reese Chong tăng throughput inference từ 0.76 lên 27.29 tok/s và cắt 3.78 lần bộ nhớ KV cache — toàn bộ dựng tay trong Rust + CUDA, không đụng PyTorch hay cuBLAS.