Tất cả bài viết

// Popular Articles

#deepseek

#7382026-03-01

DeepSeek vừa public TileKernels — lớp kernel mà Google, NVIDIA, Meta không bao giờ hé lộ

Ngày 24/04/2026, DeepSeek đẩy thẳng lên GitHub một thư viện kernel GPU viết bằng Python (TileLang), chạy sát silicon limit trên Hopper và Blackwell. Không CUDA C++, không CUTLASS — chỉ FP8/FP4 quantization per-channel, MoE routing fused, và mega-kernel overlapping NVLink. Đây là lớp quyết định performance thật sự của AI.

deepseektilekernelsgpu-kernel

7 phút đọc

#6332026-01-09

DeepSeek ra mắt TileKernels: thư viện GPU kernel viết bằng Python, đạp đổ CUTLASS

DeepSeek vừa open-source TileKernels — thư viện kernel cho LLM viết hoàn toàn bằng TileLang (Python DSL), target trực tiếp tile-level của Hopper/Blackwell, bỏ qua CUTLASS. Đã chạy trong production training + inference của DeepSeek.

deepseektile-kernelstilelang

6 phút đọc

#6232026-01-04

DeepSeek-V4-Pro ra mắt: 1.6T tham số, context 1M token, giá rẻ gấp nhiều lần GPT-5.4

DeepSeek vừa tung V4-Pro và V4-Flash — hai mô hình MoE open-weights với context 1 triệu token, đánh bại mọi model mở trên benchmark code, bám sát Gemini 3.1-Pro và GPT-5.4 với giá chỉ bằng một phần nhỏ. V4-Pro là mô hình open-weights lớn nhất từ trước tới nay.

deepseekdeepseek-v4open-source-llm

7 phút đọc

#5012025-11-02

DeepSeek ra mắt Tile Kernels: thư viện GPU kernel TileLang chạm giới hạn phần cứng

DeepSeek vừa open-source Tile Kernels — bộ GPU kernel viết bằng TileLang cho các pha MoE gating, routing, FP8/FP4 quantization và normalization. DeepSeek tuyên bố các kernel này đã được dùng trong training/inference nội bộ và đạt gần giới hạn lý thuyết về compute intensity cùng memory bandwidth.

deepseektile-kernelstilelang

7 phút đọc

#4822025-10-23

DeepEP v2.0.0: DeepSeek cắt 4× SM cho MoE, scale lên EP2048, thêm Engram & Pipeline-Parallel

DeepSeek vừa mở PR public release cho DeepEP v2 — refactor toàn bộ thư viện expert-parallel: full JIT, đổi backend NVSHMEM sang NCCL Gin, scale đến 2048-way EP, peak 740 GB/s trên NVLink và giảm tới 4 lần SM so với v1.

deepseekdeepepmoe

7 phút đọc

#772025-04-04

Native Sparse Attention: the ACL 2025 Best Paper that makes 64k context 11.6× cheaper

DeepSeek + Peking University win ACL 2025 Best Paper with NSA — a sparse attention mechanism trained from scratch. 27B model beats dense baseline, runs 9× faster forward, 11.6× faster decoding at 64k on A100.

native-sparse-attentiondeepseekacl-2025

7 phút đọc

#402025-03-16

DeepSeek Mega MoE: viết lại cách Mixture-of-Experts chạy trên GPU

Ngày 16/04/2026, DeepSeek tung bản DeepGEMM mới gom toàn bộ forward path của MoE — dispatch, linear1, SwiGLU, linear2, combine — vào một mega-kernel duy nhất, chồng NVLink traffic lên Tensor Core MMAs. Không còn chuỗi compute–wait–transfer. GPU đỡ idle, scaling multi-GPU MoE sạch hơn hẳn.

deepseekdeepgemmmixture-of-experts

7 phút đọc