Tag: #llm-inference

4 bài viết

#7022026-05-21

Hardware Recipes, Benchmark đúng cách và 10 sai lầm hay gặp khi chọn LLM Inference Engine

Mỗi setup hardware có recipe engine tối ưu riêng - từ CPU-only server đến cụm 8×H100. Benchmark tốt đo TTFT, TPOT, p95 và KV cache hit rate - không phải tok/s single-user. Và 10 sai lầm phổ biến nhất mà hầu hết team đều mắc ít nhất một lần. Phần cuối trong series 4 bài.

llm-inferencehardware-strategybenchmark-llm

8 phút đọc

#5712026-05-10

DFlash: Block Diffusion giúp LLM suy diễn nhanh hơn 8.5x mà không mất chất lượng

DFlash đạt 415.7 tokens/sec trên Qwen3-8B, nhanh hơn 8.5x so với baseline 48.5 tokens/sec mà hoàn toàn lossless. Block diffusion model sinh toàn bộ token block trong 1 forward pass duy nhất - chi phí draft không đổi dù suy đoán bao nhiêu token. Nhanh hơn 2.5x so với EAGLE-3, SOTA trước đó. MIT license, đã hỗ trợ vLLM v0.20.1+, SGLang, Transformers với 18 model phổ biến.

dflashspeculative-decodingllm-inference

6 phút đọc

#5422026-05-07

Prefill và Decode: Hai pha đối lập giải thích mọi thứ về tốc độ LLM

Prefill xử lý toàn bộ prompt song song - bottleneck là compute, metric là TTFT. Decode sinh từng token một - bottleneck là memory bandwidth, metric là ITL. Llama-2-13B tốn 800KB KV cache mỗi token, 4K context với batch 8 ngốn 25GB VRAM. DeepSeek MLA nén cache xuống 93.3% và tăng throughput 5.76x bằng cách redesign attention từ đầu.

llm-inferencekv-cacheprefill-decode

6 phút đọc

#3542026-04-22

20 GitHub Accounts Mọi AI Builder Cần Follow - Phần 2: Agents, Inference và Practitioners

Tiếp nối Phần 1, đây là 20 GitHub accounts tiếp theo Phần 2 bao gồm các coding agent builders (Open Interpreter, aider, LangChain), inference runtimes (Ollama, llamafile), tooling infra (ruff, Modal) và practitioners hàng đầu như Chip Huyen, Thomas Wolf. Mỗi profile kèm ý tưởng build cụ thể.

githubai-buildersopen-source

7 phút đọc