#6582026-01-21
Vì sao DeepSeek V4 chậm ra mắt: bóc tách hai 'miếng băng dán' giữ cho quá trình training 33T tokens khỏi vỡ
DeepSeek V4 preview vừa ra ngày 24/04/2026 sau hơn 4 tháng im ắng. Báo cáo kỹ thuật nhắc chữ 'stability' hơn 10 lần, nhưng hai kỹ thuật chính để giữ training khỏi sụp — Anticipatory Routing (mismatched routing) và SwiGLU Clamping — nghe có vẻ vá víu hơn là giải pháp nền. Susan Zhang (@suchenzang) chỉ ra điểm này; bài này bóc tách xem tại sao.