// Popular Articles

#int8-quantization
#2932025-07-21

35x nhanh hơn: KV cache + INT8 quantization trong transformer viết từ đầu bằng Rust + CUDA

Reese Chong tăng throughput inference từ 0.76 lên 27.29 tok/s và cắt 3.78 lần bộ nhớ KV cache — toàn bộ dựng tay trong Rust + CUDA, không đụng PyTorch hay cuBLAS.

kv-cacheint8-quantizationrust
7 phút đọc