// Popular Articles
pyptx ra mắt: viết PTX kernel cho Hopper & Blackwell ngay trong Python
Patrick Toulme vừa ra mắt pyptx — một DSL Python cho phép viết PTX kernel theo nguyên tắc một-câu-lệnh-một-call. Hỗ trợ trực tiếp wgmma, TMA, tcgen05, mbarriers cho Hopper và Blackwell. GEMM đạt 77–78% cuBLAS, RMSNorm 88% HBM3 peak, grouped GEMM nhanh hơn PyTorch ~10 lần.
DeepSeek ra mắt Tile Kernels: thư viện GPU kernel TileLang chạm giới hạn phần cứng
DeepSeek vừa open-source Tile Kernels — bộ GPU kernel viết bằng TileLang cho các pha MoE gating, routing, FP8/FP4 quantization và normalization. DeepSeek tuyên bố các kernel này đã được dùng trong training/inference nội bộ và đạt gần giới hạn lý thuyết về compute intensity cùng memory bandwidth.