Tất cả bài viết

// Popular Articles

#apple-silicon

#8352026-04-12

Qwen3.6-27B chạy local trên MacBook Pro: model 27B đánh bại 397B trên benchmark coding

Alibaba vừa open-source Qwen3.6-27B — model dense 27B đánh bại Qwen3.5-397B-A17B (MoE) trên mọi benchmark coding agentic, chạy local 16.8GB GGUF trên Mac 24GB unified memory với ~25 t/s. Apache 2.0, không phí, không API key.

qwen-3-6alibabalocal-llm

8 phút đọc

#6822026-02-03

DeepSeek-V4 giờ chạy 26 tok/s trên MLX — và bạn có thể nhét nó vào Claude Code, Opencode, PI

Prince Canuma vừa đẩy DeepSeek-V4-Flash lên ~23-26 tok/s trên Apple Silicon bằng một Metal kernel tự viết cho Sinkhorn và giữ MoE experts ở MXFP4. Hệ quả: một model 284B parameters, context 1M, rating Codeforces hơn GPT-5.4, giờ có thể chạy local làm backend cho coding agent.

deepseek-v4mlxapple-silicon

6 phút đọc

#5042025-11-03

Qwen3.6-27B chạy local: benchmark 4 setup từ RTX 4090 đến DGX Spark

Qwen3.6-27B vừa ra mắt ngày 22/04 — một dense model đánh bại Qwen3.5-397B MoE trên coding benchmark. Nhưng nó chạy nhanh cỡ nào trên phần cứng local? Dev @stevibe bench 4 setup cùng lúc: RTX 5090 đạt 51.83 tok/s, M2 Ultra có TTFT thấp nhất chỉ 216ms, còn DGX Spark 128GB lại chậm bất ngờ với 11.08 tok/s. Bandwidth là ông vua.

qwen3-6local-llmllama-cpp

7 phút đọc

#4482025-10-07

Qwen3.6 35B vs 27B trên MacBook M5 Max với TurboQuant: tốc độ hay chất lượng?

Một benchmark thực chiến so sánh Qwen3.6 35B-A3B (MoE) và Qwen3.6 27B (dense thinking) chạy local trên MacBook Pro M5 Max 64GB RAM với KV-cache nén bằng Google TurboQuant. Kết quả hé lộ trade-off rõ ràng giữa throughput và chất lượng planning.

qwen3-6turboquantlocal-llm

6 phút đọc

#3402025-08-14

Gemma 4 26B A4B: 10+ instances chạy song song trên MacBook Pro M4 Max

Google DeepMind open-source demo chạy 10+ Gemma 4 26B A4B song song trên một MacBook Pro M4 Max, mỗi instance giữ 18 tok/s. Đây là bằng chứng sống cho kiến trúc MoE 3.8B active/25.2B total — ~180 tok/s aggregate chỉ trên một máy laptop.

gemma-4google-deepmindmixture-of-experts

7 phút đọc

#1122025-04-21

Gemma 4 + Falcon Perception: agent thị giác chạy local trên MacBook, không cần API

Một vòng lặp agentic hai mô hình mở — Gemma 4 đặt câu hỏi, Falcon Perception trả lời — phân tích video ngay trên MacBook qua MLX. Demo đếm 156 người và 8 xe trắng trong một clip, hoàn toàn offline.

gemma-4falcon-perceptionmlx

7 phút đọc

#562025-03-24

Gemma 4 trên MLX trong Ollama: nhanh hơn rõ rệt, con số thật là bao nhiêu?

Một tweet của @thinkverse tóm gọn trend đang nóng trong cộng đồng Apple Silicon: Gemma 4 chạy qua MLX trong Ollama nhanh hơn hẳn trước. Dưới đây là con số thật, bối cảnh Ollama 0.19 + MLX backend, và tại sao Mac 32GB+ đang trở thành máy local-LLM mạnh nhất hiện tại.

gemma-4ollamamlx

7 phút đọc

#212025-03-07

Gemma 4 26B A4B và 31B đã có mặt trên Mac qua LocallyAI: hai model open-source mạnh nhất chạy offline trên Apple Silicon

LocallyAI vừa thêm Gemma 4 26B A4B (MoE, 4B active params, ~150 token/s) và 31B Dense (top-3 open model trên Arena AI) vào app Mac. Đây là hai model lớn nhất, thông minh nhất mà bạn có thể chạy 100% offline trên Apple Silicon — Apache 2.0, 256K context, agentic-ready, không cần internet.

gemma-4google-deepmindlocally-ai

7 phút đọc