// Popular Articles
Chạy Qwen ở Q3: Bên kia vách đá precision của local LLM
Q3 quant có thể trả lời giống Claude Opus, nhưng cái giá là một cú thinking loop 60 giây và +60% wall-clock. Đây là bản chất của việc đi xuống dưới Q4 — và tại sao đôi khi vẫn đáng.
DFlash đã chạy được trên llama.cpp: block-diffusion draft, speedup tới 8× cho Qwen3
spiritbuun vừa push bản triển khai DFlash — speculative decoding kiểu block-diffusion — vào fork buun-llama-cpp. Một dòng lệnh --spec-type dflash, draft model 5 layer, block 16 token mỗi forward pass, tốc độ gấp 6–8 lần so với decode thường và hơn EAGLE-3 khoảng 2.5×.
Qwen3.6-27B chạy local: benchmark 4 setup từ RTX 4090 đến DGX Spark
Qwen3.6-27B vừa ra mắt ngày 22/04 — một dense model đánh bại Qwen3.5-397B MoE trên coding benchmark. Nhưng nó chạy nhanh cỡ nào trên phần cứng local? Dev @stevibe bench 4 setup cùng lúc: RTX 5090 đạt 51.83 tok/s, M2 Ultra có TTFT thấp nhất chỉ 216ms, còn DGX Spark 128GB lại chậm bất ngờ với 11.08 tok/s. Bandwidth là ông vua.
24GB VRAM là đủ: Gemma 4 31B Dense tự build một hero section trên laptop trong 5 phút
Gemma 4 31B Dense chạy local trên RTX 5090 laptop 24GB, q4_k_m, 15 tok/s, 94W — và nó tự viết xong một production hero section chỉ trong 5 phút. Đây là lúc 'AI coding không subscription' trở thành thực tế trên máy cá nhân.
Liquid AI's car-cockpit voice assistant runs fully offline on a laptop — two tiny models, zero cloud
A 1.5B audio model (LFM2.5-Audio) and a 1.2B tool-calling model (LFM2-1.2B-Tool) drive a real-time, voice-controlled car cockpit demo entirely on-device. No internet, no API keys, no cloud. Here's what's actually inside.