Hardware Recipes, Benchmark đúng cách và 10 sai lầm hay gặp khi chọn LLM Inference Engine
Mỗi setup hardware có recipe engine tối ưu riêng - từ CPU-only server đến cụm 8×H100. Benchmark tốt đo TTFT, TPOT, p95 và KV cache hit rate - không phải tok/s single-user. Và 10 sai lầm phổ biến nhất mà hầu hết team đều mắc ít nhất một lần. Phần cuối trong series 4 bài.
DFlash: Block Diffusion giúp LLM suy diễn nhanh hơn 8.5x mà không mất chất lượng
DFlash đạt 415.7 tokens/sec trên Qwen3-8B, nhanh hơn 8.5x so với baseline 48.5 tokens/sec mà hoàn toàn lossless. Block diffusion model sinh toàn bộ token block trong 1 forward pass duy nhất - chi phí draft không đổi dù suy đoán bao nhiêu token. Nhanh hơn 2.5x so với EAGLE-3, SOTA trước đó. MIT license, đã hỗ trợ vLLM v0.20.1+, SGLang, Transformers với 18 model phổ biến.
Prefill và Decode: Hai pha đối lập giải thích mọi thứ về tốc độ LLM
Prefill xử lý toàn bộ prompt song song - bottleneck là compute, metric là TTFT. Decode sinh từng token một - bottleneck là memory bandwidth, metric là ITL. Llama-2-13B tốn 800KB KV cache mỗi token, 4K context với batch 8 ngốn 25GB VRAM. DeepSeek MLA nén cache xuống 93.3% và tăng throughput 5.76x bằng cách redesign attention từ đầu.
20 GitHub Accounts Mọi AI Builder Cần Follow - Phần 2: Agents, Inference và Practitioners
Tiếp nối Phần 1, đây là 20 GitHub accounts tiếp theo Phần 2 bao gồm các coding agent builders (Open Interpreter, aider, LangChain), inference runtimes (Ollama, llamafile), tooling infra (ruff, Modal) và practitioners hàng đầu như Chip Huyen, Thomas Wolf. Mỗi profile kèm ý tưởng build cụ thể.