Tất cả bài viết

// Popular Articles

#hbm

#6532026-01-19

DeepSeek V4 giảm 10 lần KV cache ở 1M context — và giải luôn cơn khát HBM

V4-Pro vượt Opus 4.6 trên Terminal-Bench, gần bằng Gemini 3.1 Pro trên mọi benchmark, nhưng điểm đáng kể nhất là KV cache chỉ còn 10% so với V3.2 ở context 1M. Với GPU cố định, cùng một rack GB300 giờ có thể phục vụ gấp 10 lần số request concurrent. Đây là đóng góp nghiêm túc nhất cho kinh tế inference long-context năm 2026.

deepseek-v4kv-cachelong-context

8 phút đọc