// Popular Articles
Gemma 4 26B A4B: con quái vật mã nguồn mở Google vừa thả ra cho máy tính cá nhân
Google DeepMind vừa phát hành Gemma 4 — bộ 4 mô hình mở dưới giấy phép Apache 2.0. Phiên bản 26B A4B dùng kiến trúc Mixture-of-Experts: 25.2 tỷ tham số tổng nhưng chỉ kích hoạt 3.8 tỷ mỗi token, đạt ELO 1441 trên Arena AI (top 6 mô hình mở thế giới), context 256K, đa phương thức text + ảnh + video, hỗ trợ 140+ ngôn ngữ. Quan trọng nhất: chạy gọn trên MacBook M4 Max hoặc RTX consumer với 16-18GB RAM ở quant 4-bit.
DeepSeek vừa public TileKernels — lớp kernel mà Google, NVIDIA, Meta không bao giờ hé lộ
Ngày 24/04/2026, DeepSeek đẩy thẳng lên GitHub một thư viện kernel GPU viết bằng Python (TileLang), chạy sát silicon limit trên Hopper và Blackwell. Không CUDA C++, không CUTLASS — chỉ FP8/FP4 quantization per-channel, MoE routing fused, và mega-kernel overlapping NVLink. Đây là lớp quyết định performance thật sự của AI.
DeepSeek-V4 giờ chạy 26 tok/s trên MLX — và bạn có thể nhét nó vào Claude Code, Opencode, PI
Prince Canuma vừa đẩy DeepSeek-V4-Flash lên ~23-26 tok/s trên Apple Silicon bằng một Metal kernel tự viết cho Sinkhorn và giữ MoE experts ở MXFP4. Hệ quả: một model 284B parameters, context 1M, rating Codeforces hơn GPT-5.4, giờ có thể chạy local làm backend cho coding agent.
Gemma 4 26B A4B: 10+ instances chạy song song trên MacBook Pro M4 Max
Google DeepMind open-source demo chạy 10+ Gemma 4 26B A4B song song trên một MacBook Pro M4 Max, mỗi instance giữ 18 tok/s. Đây là bằng chứng sống cho kiến trúc MoE 3.8B active/25.2B total — ~180 tok/s aggregate chỉ trên một máy laptop.
Qwen3.6-35B-A3B: Alibaba mở mã nguồn MoE 35B chỉ dùng 3B tham số, 262K context, chạy trên laptop
Alibaba vừa open-source Qwen3.6-35B-A3B theo Apache 2.0: 35B tham số tổng, chỉ 3B kích hoạt mỗi token, context 262K, đa phương thức gốc, đạt 73.4 SWE-bench Verified và 51.5 Terminal-Bench 2.0 — vượt nhiều mô hình dense lớn gấp 10 lần.
Qwen3.6-35B-A3B: Alibaba mở mã nguồn mô hình coding 3B active đánh bại Gemma 4-31B và sánh ngang Claude Sonnet 4.5
Alibaba vừa mở mã nguồn Qwen3.6-35B-A3B dưới giấy phép Apache 2.0: MoE 35B tổng, chỉ 3B active, đa phương thức, context 262K (mở rộng 1M), và chạy được trên MacBook 24GB. Trên SWE-bench Verified đạt 73.4, Terminal-Bench 2.0 đạt 51.5 — vượt Gemma 4-31B và bám sát Claude Sonnet 4.5.
NVIDIA Nemotron 3 Super: 120B Open Model With Only 12B Active — Built To Be An Agent's Brain
NVIDIA's Nemotron 3 Super is a 120B-parameter, 12B-active hybrid Mamba-Transformer MoE that scores 60.47 on SWE-Bench Verified, holds 91.75 on RULER at 1M tokens (while GPT-OSS-120B collapses to 22.3), and ships fully open — weights, datasets, and training recipes.
DeepSeek Mega MoE: viết lại cách Mixture-of-Experts chạy trên GPU
Ngày 16/04/2026, DeepSeek tung bản DeepGEMM mới gom toàn bộ forward path của MoE — dispatch, linear1, SwiGLU, linear2, combine — vào một mega-kernel duy nhất, chồng NVLink traffic lên Tensor Core MMAs. Không còn chuỗi compute–wait–transfer. GPU đỡ idle, scaling multi-GPU MoE sạch hơn hẳn.