Tất cả bài viết

// Popular Articles

#int8-quantization

#2932025-07-21

35x nhanh hơn: KV cache + INT8 quantization trong transformer viết từ đầu bằng Rust + CUDA

Reese Chong tăng throughput inference từ 0.76 lên 27.29 tok/s và cắt 3.78 lần bộ nhớ KV cache — toàn bộ dựng tay trong Rust + CUDA, không đụng PyTorch hay cuBLAS.

kv-cacheint8-quantizationrust

7 phút đọc