// Popular Articles
Qwen3.6-27B chạy local: benchmark 4 setup từ RTX 4090 đến DGX Spark
Qwen3.6-27B vừa ra mắt ngày 22/04 — một dense model đánh bại Qwen3.5-397B MoE trên coding benchmark. Nhưng nó chạy nhanh cỡ nào trên phần cứng local? Dev @stevibe bench 4 setup cùng lúc: RTX 5090 đạt 51.83 tok/s, M2 Ultra có TTFT thấp nhất chỉ 216ms, còn DGX Spark 128GB lại chậm bất ngờ với 11.08 tok/s. Bandwidth là ông vua.
200 tok/s, 49W: Qwen3.6-27B-FP8 Runs Flagship Coding on a Single DGX Spark
A day after Alibaba shipped Qwen3.6-27B, engineer Mitko Vasilev posted a number that should make every indie AI builder look twice: 200 tokens/sec peak, 136 tok/s average, 256k context, 10 concurrent agents — on one NVIDIA GB10 drawing just 49 watts. Here is what the stack is doing and why the tok/s-per-watt curve just bent.
NVIDIA NemoClaw + OpenClaw: Dựng AI Agent Always-On Chạy 100% Local Trên DGX Spark
NVIDIA mở bộ stack open-source NemoClaw cho OpenClaw — chạy agent Nemotron 3 Super 120B ngay trên DGX Spark, sandbox bằng OpenShell, điều khiển qua Telegram. Không token cost, không data rời máy.