// Popular Articles
DeepSeek-V4 giờ chạy 26 tok/s trên MLX — và bạn có thể nhét nó vào Claude Code, Opencode, PI
Prince Canuma vừa đẩy DeepSeek-V4-Flash lên ~23-26 tok/s trên Apple Silicon bằng một Metal kernel tự viết cho Sinkhorn và giữ MoE experts ở MXFP4. Hệ quả: một model 284B parameters, context 1M, rating Codeforces hơn GPT-5.4, giờ có thể chạy local làm backend cho coding agent.
Gemma 4 + Falcon Perception: agent thị giác chạy local trên MacBook, không cần API
Một vòng lặp agentic hai mô hình mở — Gemma 4 đặt câu hỏi, Falcon Perception trả lời — phân tích video ngay trên MacBook qua MLX. Demo đếm 156 người và 8 xe trắng trong một clip, hoàn toàn offline.
Gemma 4 trên MLX trong Ollama: nhanh hơn rõ rệt, con số thật là bao nhiêu?
Một tweet của @thinkverse tóm gọn trend đang nóng trong cộng đồng Apple Silicon: Gemma 4 chạy qua MLX trong Ollama nhanh hơn hẳn trước. Dưới đây là con số thật, bối cảnh Ollama 0.19 + MLX backend, và tại sao Mac 32GB+ đang trở thành máy local-LLM mạnh nhất hiện tại.