// Popular Articles
DeepSeek vừa public TileKernels — lớp kernel mà Google, NVIDIA, Meta không bao giờ hé lộ
Ngày 24/04/2026, DeepSeek đẩy thẳng lên GitHub một thư viện kernel GPU viết bằng Python (TileLang), chạy sát silicon limit trên Hopper và Blackwell. Không CUDA C++, không CUTLASS — chỉ FP8/FP4 quantization per-channel, MoE routing fused, và mega-kernel overlapping NVLink. Đây là lớp quyết định performance thật sự của AI.
DeepSeek ra mắt TileKernels: thư viện GPU kernel viết bằng Python, đạp đổ CUTLASS
DeepSeek vừa open-source TileKernels — thư viện kernel cho LLM viết hoàn toàn bằng TileLang (Python DSL), target trực tiếp tile-level của Hopper/Blackwell, bỏ qua CUTLASS. Đã chạy trong production training + inference của DeepSeek.
DeepSeek-V4-Pro ra mắt: 1.6T tham số, context 1M token, giá rẻ gấp nhiều lần GPT-5.4
DeepSeek vừa tung V4-Pro và V4-Flash — hai mô hình MoE open-weights với context 1 triệu token, đánh bại mọi model mở trên benchmark code, bám sát Gemini 3.1-Pro và GPT-5.4 với giá chỉ bằng một phần nhỏ. V4-Pro là mô hình open-weights lớn nhất từ trước tới nay.
DeepSeek ra mắt Tile Kernels: thư viện GPU kernel TileLang chạm giới hạn phần cứng
DeepSeek vừa open-source Tile Kernels — bộ GPU kernel viết bằng TileLang cho các pha MoE gating, routing, FP8/FP4 quantization và normalization. DeepSeek tuyên bố các kernel này đã được dùng trong training/inference nội bộ và đạt gần giới hạn lý thuyết về compute intensity cùng memory bandwidth.
DeepEP v2.0.0: DeepSeek cắt 4× SM cho MoE, scale lên EP2048, thêm Engram & Pipeline-Parallel
DeepSeek vừa mở PR public release cho DeepEP v2 — refactor toàn bộ thư viện expert-parallel: full JIT, đổi backend NVSHMEM sang NCCL Gin, scale đến 2048-way EP, peak 740 GB/s trên NVLink và giảm tới 4 lần SM so với v1.
Native Sparse Attention: the ACL 2025 Best Paper that makes 64k context 11.6× cheaper
DeepSeek + Peking University win ACL 2025 Best Paper with NSA — a sparse attention mechanism trained from scratch. 27B model beats dense baseline, runs 9× faster forward, 11.6× faster decoding at 64k on A100.
DeepSeek Mega MoE: viết lại cách Mixture-of-Experts chạy trên GPU
Ngày 16/04/2026, DeepSeek tung bản DeepGEMM mới gom toàn bộ forward path của MoE — dispatch, linear1, SwiGLU, linear2, combine — vào một mega-kernel duy nhất, chồng NVLink traffic lên Tensor Core MMAs. Không còn chuỗi compute–wait–transfer. GPU đỡ idle, scaling multi-GPU MoE sạch hơn hẳn.