// Popular Articles

#gpu-kernels
#8322026-04-11

pyptx ra mắt: viết PTX kernel cho Hopper & Blackwell ngay trong Python

Patrick Toulme vừa ra mắt pyptx — một DSL Python cho phép viết PTX kernel theo nguyên tắc một-câu-lệnh-một-call. Hỗ trợ trực tiếp wgmma, TMA, tcgen05, mbarriers cho Hopper và Blackwell. GEMM đạt 77–78% cuBLAS, RMSNorm 88% HBM3 peak, grouped GEMM nhanh hơn PyTorch ~10 lần.

pyptxnvidia-ptxblackwell
6 phút đọc
#5012025-11-02

DeepSeek ra mắt Tile Kernels: thư viện GPU kernel TileLang chạm giới hạn phần cứng

DeepSeek vừa open-source Tile Kernels — bộ GPU kernel viết bằng TileLang cho các pha MoE gating, routing, FP8/FP4 quantization và normalization. DeepSeek tuyên bố các kernel này đã được dùng trong training/inference nội bộ và đạt gần giới hạn lý thuyết về compute intensity cùng memory bandwidth.

deepseektile-kernelstilelang
7 phút đọc