Tất cả bài viết

// Popular Articles

#llama-cpp

#6922026-02-08

Chạy Qwen ở Q3: Bên kia vách đá precision của local LLM

Q3 quant có thể trả lời giống Claude Opus, nhưng cái giá là một cú thinking loop 60 giây và +60% wall-clock. Đây là bản chất của việc đi xuống dưới Q4 — và tại sao đôi khi vẫn đáng.

qwenllm-quantizationlocal-llm

7 phút đọc

#5722025-12-08

DFlash đã chạy được trên llama.cpp: block-diffusion draft, speedup tới 8× cho Qwen3

spiritbuun vừa push bản triển khai DFlash — speculative decoding kiểu block-diffusion — vào fork buun-llama-cpp. Một dòng lệnh --spec-type dflash, draft model 5 layer, block 16 token mỗi forward pass, tốc độ gấp 6–8 lần so với decode thường và hơn EAGLE-3 khoảng 2.5×.

dflashllama-cppspeculative-decoding

6 phút đọc

#5042025-11-03

Qwen3.6-27B chạy local: benchmark 4 setup từ RTX 4090 đến DGX Spark

Qwen3.6-27B vừa ra mắt ngày 22/04 — một dense model đánh bại Qwen3.5-397B MoE trên coding benchmark. Nhưng nó chạy nhanh cỡ nào trên phần cứng local? Dev @stevibe bench 4 setup cùng lúc: RTX 5090 đạt 51.83 tok/s, M2 Ultra có TTFT thấp nhất chỉ 216ms, còn DGX Spark 128GB lại chậm bất ngờ với 11.08 tok/s. Bandwidth là ông vua.

qwen3-6local-llmllama-cpp

7 phút đọc

#2912025-07-20

24GB VRAM là đủ: Gemma 4 31B Dense tự build một hero section trên laptop trong 5 phút

Gemma 4 31B Dense chạy local trên RTX 5090 laptop 24GB, q4_k_m, 15 tok/s, 94W — và nó tự viết xong một production hero section chỉ trong 5 phút. Đây là lúc 'AI coding không subscription' trở thành thực tế trên máy cá nhân.

gemma-4google-deepmindlocal-llm

8 phút đọc

#882025-04-09

Liquid AI's car-cockpit voice assistant runs fully offline on a laptop — two tiny models, zero cloud

A 1.5B audio model (LFM2.5-Audio) and a 1.2B tool-calling model (LFM2-1.2B-Tool) drive a real-time, voice-controlled car cockpit demo entirely on-device. No internet, no API keys, no cloud. Here's what's actually inside.

liquid-aion-device-aiedge-ai

7 phút đọc