Tất cả bài viết

// Popular Articles

#icecache

#5092025-11-06

IceCache: giữ KV-cache GPU gần như hằng số cho long-context LLM, giữ 99% accuracy với 256 token budget

IceCache (ICLR 2026) group token theo ngữ nghĩa qua DCI-tree rồi offload sang CPU, chỉ giữ top-k page trên GPU. Kết quả: 99% accuracy full-cache ở budget 256 token, ngang hoặc vượt 6 SOTA baseline với 25% KV budget.

icecachekv-cachelong-context-llm

7 phút đọc