Tất cả bài viết

// Popular Articles

#llm-inference

#7542026-03-08

Qwen3.6 35B chạy 164 tok/s trên creative writing với DFlash: kỷ lục mới của open-source MoE

Elliot Arledge công bố benchmark single-stream: Qwen3.6-35B-A3B (3B active) + DFlash drafter ở c=1 đạt 164 tokens/sec decode trên prompt creative writing — vượt xa con số 60-90 tok/s mà DGX Spark báo cáo, cho thấy combo MoE sparse + block-diffusion speculative decoding đang mở ra một trần tốc độ mới cho LLM 35B chạy local.

qwen3-6dflashspeculative-decoding

7 phút đọc

#6142025-12-30

"Constant GPU memory" trong LLM inference: bạn không làm bài toán biến mất, chỉ dời nó sang CPU

Các paper như RetroInfer và ScoutAttention quảng cáo inference long-context với "constant GPU memory" nhờ offload KV cache sang CPU DRAM và kéo lại qua PCIe mỗi decode step. Đẹp trên slide — nhưng có điều kiện nhỏ: bạn cần 36+ CPU cores chạy ANN search liên tục. Apple Silicon và RTX 4090 không có cửa.

llm-inferencekv-cachegpu-memory

6 phút đọc

#5092025-11-06

IceCache: giữ KV-cache GPU gần như hằng số cho long-context LLM, giữ 99% accuracy với 256 token budget

IceCache (ICLR 2026) group token theo ngữ nghĩa qua DCI-tree rồi offload sang CPU, chỉ giữ top-k page trên GPU. Kết quả: 99% accuracy full-cache ở budget 256 token, ngang hoặc vượt 6 SOTA baseline với 25% KV budget.

icecachekv-cachelong-context-llm

7 phút đọc

#3212025-08-04

Meta's REFRAG: 30× Faster RAG Decoding Without Losing Accuracy

Meta Superintelligence Labs just shipped REFRAG — a decoding framework that compresses RAG context into chunk embeddings, hitting 30.85× faster time-to-first-token, 16× longer context, and zero perplexity loss. No LLM retraining required.

refragmeta-airag

7 phút đọc

#2932025-07-21

35x nhanh hơn: KV cache + INT8 quantization trong transformer viết từ đầu bằng Rust + CUDA

Reese Chong tăng throughput inference từ 0.76 lên 27.29 tok/s và cắt 3.78 lần bộ nhớ KV cache — toàn bộ dựng tay trong Rust + CUDA, không đụng PyTorch hay cuBLAS.

kv-cacheint8-quantizationrust

7 phút đọc

#2852025-07-17

Ollama kimi-k2.6:cloud crushes OpenRouter providers on throughput — field numbers inside

A hobbyist benchmark of three runs against Ollama's kimi-k2.6:cloud clocked 77–114 tok/s with sub-1.2s TTFT, leaving every OpenRouter provider (Parasail, Moonshot, NovitaAI, Cloudflare) in the dust. Caveats, context, and what the numbers actually mean.

kimi-k2-6ollamaopenrouter

5 phút đọc

#1022025-04-16

TIDE: khi mỗi token chọn tầng riêng — early exit per-token giúp LLM inference nhanh hơn 7.2%

TIDE bolt tiny MLP routers (~4MB) lên model đông lạnh, cho phép token "the" và token reasoning thoát ở tầng khác nhau. Calibrate 3 phút, không retrain, đạt 98–99% early-exit rate khi decode multi-step math mà đáp án không đổi.

llm-inferenceearly-exittide

7 phút đọc

#962025-04-13

NVIDIA Dynamo 1.0: Hệ điều hành cho AI factory, scale LLM inference đến hàng nghìn GPU

NVIDIA Dynamo là framework inference phân tán datacenter-scale, kế nhiệm Triton, vừa GA 1.0 ngày 16/03/2026. Disaggregated prefill/decode, KV-aware routing và dynamic GPU scheduling đẩy throughput Blackwell lên 7x — và DeepSeek-R1 trên GB200 NVL72 lên 30x token/GPU.

nvidia-dynamollm-inferencevllm

8 phút đọc