// Popular Articles

#mlx
#6822026-02-03

DeepSeek-V4 giờ chạy 26 tok/s trên MLX — và bạn có thể nhét nó vào Claude Code, Opencode, PI

Prince Canuma vừa đẩy DeepSeek-V4-Flash lên ~23-26 tok/s trên Apple Silicon bằng một Metal kernel tự viết cho Sinkhorn và giữ MoE experts ở MXFP4. Hệ quả: một model 284B parameters, context 1M, rating Codeforces hơn GPT-5.4, giờ có thể chạy local làm backend cho coding agent.

deepseek-v4mlxapple-silicon
6 phút đọc
#1122025-04-21

Gemma 4 + Falcon Perception: agent thị giác chạy local trên MacBook, không cần API

Một vòng lặp agentic hai mô hình mở — Gemma 4 đặt câu hỏi, Falcon Perception trả lời — phân tích video ngay trên MacBook qua MLX. Demo đếm 156 người và 8 xe trắng trong một clip, hoàn toàn offline.

gemma-4falcon-perceptionmlx
7 phút đọc
Gemma 4 trên MLX trong Ollama: nhanh hơn rõ rệt, con số thật là bao nhiêu?
#562025-03-24

Gemma 4 trên MLX trong Ollama: nhanh hơn rõ rệt, con số thật là bao nhiêu?

Một tweet của @thinkverse tóm gọn trend đang nóng trong cộng đồng Apple Silicon: Gemma 4 chạy qua MLX trong Ollama nhanh hơn hẳn trước. Dưới đây là con số thật, bối cảnh Ollama 0.19 + MLX backend, và tại sao Mac 32GB+ đang trở thành máy local-LLM mạnh nhất hiện tại.

gemma-4ollamamlx
7 phút đọc