// Popular Articles
DFlash đã chạy được trên llama.cpp: block-diffusion draft, speedup tới 8× cho Qwen3
spiritbuun vừa push bản triển khai DFlash — speculative decoding kiểu block-diffusion — vào fork buun-llama-cpp. Một dòng lệnh --spec-type dflash, draft model 5 layer, block 16 token mỗi forward pass, tốc độ gấp 6–8 lần so với decode thường và hơn EAGLE-3 khoảng 2.5×.
DFlash cho Qwen3.6-35B-A3B chính thức GA: speculative decoding 2.9× nhanh hơn, drafter chỉ 0.5B tham số
Z Lab vừa release bản final DFlash drafter cho Qwen3.6-35B-A3B — block diffusion 0.5B params đạt 2.9× speedup trên Math500, vượt EAGLE-3 hơn 2.5×. Cộng đồng đã chạy preview từ trước khi training xong, giờ weights chính thức finalized.