Tất cả bài viết

// Popular Articles

#mixture-of-experts

#7862026-03-22

Gemma 4 26B A4B: con quái vật mã nguồn mở Google vừa thả ra cho máy tính cá nhân

Google DeepMind vừa phát hành Gemma 4 — bộ 4 mô hình mở dưới giấy phép Apache 2.0. Phiên bản 26B A4B dùng kiến trúc Mixture-of-Experts: 25.2 tỷ tham số tổng nhưng chỉ kích hoạt 3.8 tỷ mỗi token, đạt ELO 1441 trên Arena AI (top 6 mô hình mở thế giới), context 256K, đa phương thức text + ảnh + video, hỗ trợ 140+ ngôn ngữ. Quan trọng nhất: chạy gọn trên MacBook M4 Max hoặc RTX consumer với 16-18GB RAM ở quant 4-bit.

gemma-4google-deepmindopen-source-llm

7 phút đọc

#7382026-03-01

DeepSeek vừa public TileKernels — lớp kernel mà Google, NVIDIA, Meta không bao giờ hé lộ

Ngày 24/04/2026, DeepSeek đẩy thẳng lên GitHub một thư viện kernel GPU viết bằng Python (TileLang), chạy sát silicon limit trên Hopper và Blackwell. Không CUDA C++, không CUTLASS — chỉ FP8/FP4 quantization per-channel, MoE routing fused, và mega-kernel overlapping NVLink. Đây là lớp quyết định performance thật sự của AI.

deepseektilekernelsgpu-kernel

7 phút đọc

#6822026-02-03

DeepSeek-V4 giờ chạy 26 tok/s trên MLX — và bạn có thể nhét nó vào Claude Code, Opencode, PI

Prince Canuma vừa đẩy DeepSeek-V4-Flash lên ~23-26 tok/s trên Apple Silicon bằng một Metal kernel tự viết cho Sinkhorn và giữ MoE experts ở MXFP4. Hệ quả: một model 284B parameters, context 1M, rating Codeforces hơn GPT-5.4, giờ có thể chạy local làm backend cho coding agent.

deepseek-v4mlxapple-silicon

6 phút đọc

#3402025-08-14

Gemma 4 26B A4B: 10+ instances chạy song song trên MacBook Pro M4 Max

Google DeepMind open-source demo chạy 10+ Gemma 4 26B A4B song song trên một MacBook Pro M4 Max, mỗi instance giữ 18 tok/s. Đây là bằng chứng sống cho kiến trúc MoE 3.8B active/25.2B total — ~180 tok/s aggregate chỉ trên một máy laptop.

gemma-4google-deepmindmixture-of-experts

7 phút đọc

#3152025-08-01

Qwen3.6-35B-A3B: Alibaba mở mã nguồn MoE 35B chỉ dùng 3B tham số, 262K context, chạy trên laptop

Alibaba vừa open-source Qwen3.6-35B-A3B theo Apache 2.0: 35B tham số tổng, chỉ 3B kích hoạt mỗi token, context 262K, đa phương thức gốc, đạt 73.4 SWE-bench Verified và 51.5 Terminal-Bench 2.0 — vượt nhiều mô hình dense lớn gấp 10 lần.

qwen3-6alibabaopen-source-llm

7 phút đọc

#1742025-05-22

Qwen3.6-35B-A3B: Alibaba mở mã nguồn mô hình coding 3B active đánh bại Gemma 4-31B và sánh ngang Claude Sonnet 4.5

Alibaba vừa mở mã nguồn Qwen3.6-35B-A3B dưới giấy phép Apache 2.0: MoE 35B tổng, chỉ 3B active, đa phương thức, context 262K (mở rộng 1M), và chạy được trên MacBook 24GB. Trên SWE-bench Verified đạt 73.4, Terminal-Bench 2.0 đạt 51.5 — vượt Gemma 4-31B và bám sát Claude Sonnet 4.5.

qwen-3-6alibabaopen-source-llm

8 phút đọc

#1382025-05-04

NVIDIA Nemotron 3 Super: 120B Open Model With Only 12B Active — Built To Be An Agent's Brain

NVIDIA's Nemotron 3 Super is a 120B-parameter, 12B-active hybrid Mamba-Transformer MoE that scores 60.47 on SWE-Bench Verified, holds 91.75 on RULER at 1M tokens (while GPT-OSS-120B collapses to 22.3), and ships fully open — weights, datasets, and training recipes.

nemotron-3-supernvidiaopen-source-llm

7 phút đọc

#402025-03-16

DeepSeek Mega MoE: viết lại cách Mixture-of-Experts chạy trên GPU

Ngày 16/04/2026, DeepSeek tung bản DeepGEMM mới gom toàn bộ forward path của MoE — dispatch, linear1, SwiGLU, linear2, combine — vào một mega-kernel duy nhất, chồng NVLink traffic lên Tensor Core MMAs. Không còn chuỗi compute–wait–transfer. GPU đỡ idle, scaling multi-GPU MoE sạch hơn hẳn.

deepseekdeepgemmmixture-of-experts

7 phút đọc