// Popular Articles
Phala tăng tốc vLLM loading trong GPU TEE lên 32 lần — và vì sao đây là mảnh ghép cuối cho confidential AI
Inference trong GPU TEE chỉ overhead <7%. Nhưng cold-start thì kinh khủng — tải một model 70B có thể mất vài phút vì bounce buffer encrypt bằng CPU. Phala vừa nén con số đó xuống 32 lần.
Kimi K2.6 + DFlash trên 8x MI300X: 508 tok/s, nhanh gấp 5.6 lần mà không mất chất lượng
HotAisle vừa công bố công thức serving production cho Kimi K2.6 (1T params) trên một node 8x AMD Instinct MI300X. Chuyển từ autoregressive sang DFlash speculative decoding đẩy throughput từ 90 tok/s lên 508 tok/s — cùng phần cứng, cùng model, output bit-identical.
Intel tung 3 phiên bản Wan2.2 INT4 AutoRound: kéo video generator 27B về GPU đơn
Intel vừa public 3 checkpoint Wan2.2 (TI2V-5B, T2V-A14B, I2V-A14B) lượng tử hoá INT4 bằng AutoRound trên Hugging Face. Weights co lại ~4 lần, mở đường chạy model video 27B MoE của Alibaba trên một GPU duy nhất thay vì cần A100/H100.
NVIDIA Dynamo 1.0: Hệ điều hành cho AI factory, scale LLM inference đến hàng nghìn GPU
NVIDIA Dynamo là framework inference phân tán datacenter-scale, kế nhiệm Triton, vừa GA 1.0 ngày 16/03/2026. Disaggregated prefill/decode, KV-aware routing và dynamic GPU scheduling đẩy throughput Blackwell lên 7x — và DeepSeek-R1 trên GB200 NVL72 lên 30x token/GPU.
Phantom Clipping: Why Your RLHF Run Stalls When Trainer Is FP32 and vLLM Is BF16
Hugging Face's TRL team finally pinpointed a long-suspected RLHF failure mode. It is not noise. It is PPO's clip silently zeroing out 18% of tokens because the trainer and the inference engine disagree at the bit level.