Tất cả bài viết

// Popular Articles

#h100

#6142025-12-30

"Constant GPU memory" trong LLM inference: bạn không làm bài toán biến mất, chỉ dời nó sang CPU

Các paper như RetroInfer và ScoutAttention quảng cáo inference long-context với "constant GPU memory" nhờ offload KV cache sang CPU DRAM và kéo lại qua PCIe mỗi decode step. Đẹp trên slide — nhưng có điều kiện nhỏ: bạn cần 36+ CPU cores chạy ANN search liên tục. Apple Silicon và RTX 4090 không có cửa.

llm-inferencekv-cachegpu-memory

6 phút đọc