ZCube: Kiến Trúc Mạng Thế Hệ Mới Giải Quyết Tắc Nghẽn LLM Inference
ZCube là kiến trúc mạng flattened topology do Z.ai, Harnets.AI và Đại học Tsinghua phát triển, được công bố tại ACM SIGCOMM 2025. Triển khai thực tế trên cluster ngàn GPU chạy GLM-5.1, ZCube giảm 33% CapEx switch và optical module mà không thay đổi GPU hay phần mềm. Throughput inference tăng 15%, TTFT P99 giảm 40.6% - chỉ bằng cách nâng cấp kiến trúc mạng. Với cluster 10,000 GPU, ZCube tiết kiệm khoảng 210-640 triệu RMB chi phí phần cứng mạng.
Prefill và Decode: Hai pha đối lập giải thích mọi thứ về tốc độ LLM
Prefill xử lý toàn bộ prompt song song - bottleneck là compute, metric là TTFT. Decode sinh từng token một - bottleneck là memory bandwidth, metric là ITL. Llama-2-13B tốn 800KB KV cache mỗi token, 4K context với batch 8 ngốn 25GB VRAM. DeepSeek MLA nén cache xuống 93.3% và tăng throughput 5.76x bằng cách redesign attention từ đầu.