Tất cả bài viết

// Popular Articles

#dgx-spark

#5042025-11-03

Qwen3.6-27B chạy local: benchmark 4 setup từ RTX 4090 đến DGX Spark

Qwen3.6-27B vừa ra mắt ngày 22/04 — một dense model đánh bại Qwen3.5-397B MoE trên coding benchmark. Nhưng nó chạy nhanh cỡ nào trên phần cứng local? Dev @stevibe bench 4 setup cùng lúc: RTX 5090 đạt 51.83 tok/s, M2 Ultra có TTFT thấp nhất chỉ 216ms, còn DGX Spark 128GB lại chậm bất ngờ với 11.08 tok/s. Bandwidth là ông vua.

qwen3-6local-llmllama-cpp

7 phút đọc

#4422025-10-04

200 tok/s, 49W: Qwen3.6-27B-FP8 Runs Flagship Coding on a Single DGX Spark

A day after Alibaba shipped Qwen3.6-27B, engineer Mitko Vasilev posted a number that should make every indie AI builder look twice: 200 tokens/sec peak, 136 tok/s average, 256k context, 10 concurrent agents — on one NVIDIA GB10 drawing just 49 watts. Here is what the stack is doing and why the tok/s-per-watt curve just bent.

qwen3-6dgx-sparkgb10

6 phút đọc

#652025-03-29

NVIDIA NemoClaw + OpenClaw: Dựng AI Agent Always-On Chạy 100% Local Trên DGX Spark

NVIDIA mở bộ stack open-source NemoClaw cho OpenClaw — chạy agent Nemotron 3 Super 120B ngay trên DGX Spark, sandbox bằng OpenShell, điều khiển qua Telegram. Không token cost, không data rời máy.

nvidianemoclawopenclaw

7 phút đọc