Tất cả bài viết

// Popular Articles

#tide

#1022025-04-16

TIDE: khi mỗi token chọn tầng riêng — early exit per-token giúp LLM inference nhanh hơn 7.2%

TIDE bolt tiny MLP routers (~4MB) lên model đông lạnh, cho phép token "the" và token reasoning thoát ở tầng khác nhau. Calibrate 3 phút, không retrain, đạt 98–99% early-exit rate khi decode multi-step math mà đáp án không đổi.

llm-inferenceearly-exittide

7 phút đọc