// Popular Articles
Qwen3.6 35B chạy 164 tok/s trên creative writing với DFlash: kỷ lục mới của open-source MoE
Elliot Arledge công bố benchmark single-stream: Qwen3.6-35B-A3B (3B active) + DFlash drafter ở c=1 đạt 164 tokens/sec decode trên prompt creative writing — vượt xa con số 60-90 tok/s mà DGX Spark báo cáo, cho thấy combo MoE sparse + block-diffusion speculative decoding đang mở ra một trần tốc độ mới cho LLM 35B chạy local.
"Constant GPU memory" trong LLM inference: bạn không làm bài toán biến mất, chỉ dời nó sang CPU
Các paper như RetroInfer và ScoutAttention quảng cáo inference long-context với "constant GPU memory" nhờ offload KV cache sang CPU DRAM và kéo lại qua PCIe mỗi decode step. Đẹp trên slide — nhưng có điều kiện nhỏ: bạn cần 36+ CPU cores chạy ANN search liên tục. Apple Silicon và RTX 4090 không có cửa.
IceCache: giữ KV-cache GPU gần như hằng số cho long-context LLM, giữ 99% accuracy với 256 token budget
IceCache (ICLR 2026) group token theo ngữ nghĩa qua DCI-tree rồi offload sang CPU, chỉ giữ top-k page trên GPU. Kết quả: 99% accuracy full-cache ở budget 256 token, ngang hoặc vượt 6 SOTA baseline với 25% KV budget.
Meta's REFRAG: 30× Faster RAG Decoding Without Losing Accuracy
Meta Superintelligence Labs just shipped REFRAG — a decoding framework that compresses RAG context into chunk embeddings, hitting 30.85× faster time-to-first-token, 16× longer context, and zero perplexity loss. No LLM retraining required.
35x nhanh hơn: KV cache + INT8 quantization trong transformer viết từ đầu bằng Rust + CUDA
Reese Chong tăng throughput inference từ 0.76 lên 27.29 tok/s và cắt 3.78 lần bộ nhớ KV cache — toàn bộ dựng tay trong Rust + CUDA, không đụng PyTorch hay cuBLAS.
Ollama kimi-k2.6:cloud crushes OpenRouter providers on throughput — field numbers inside
A hobbyist benchmark of three runs against Ollama's kimi-k2.6:cloud clocked 77–114 tok/s with sub-1.2s TTFT, leaving every OpenRouter provider (Parasail, Moonshot, NovitaAI, Cloudflare) in the dust. Caveats, context, and what the numbers actually mean.
TIDE: khi mỗi token chọn tầng riêng — early exit per-token giúp LLM inference nhanh hơn 7.2%
TIDE bolt tiny MLP routers (~4MB) lên model đông lạnh, cho phép token "the" và token reasoning thoát ở tầng khác nhau. Calibrate 3 phút, không retrain, đạt 98–99% early-exit rate khi decode multi-step math mà đáp án không đổi.
NVIDIA Dynamo 1.0: Hệ điều hành cho AI factory, scale LLM inference đến hàng nghìn GPU
NVIDIA Dynamo là framework inference phân tán datacenter-scale, kế nhiệm Triton, vừa GA 1.0 ngày 16/03/2026. Disaggregated prefill/decode, KV-aware routing và dynamic GPU scheduling đẩy throughput Blackwell lên 7x — và DeepSeek-R1 trên GB200 NVL72 lên 30x token/GPU.