Tất cả bài viết

// Popular Articles

#memento

#1812025-05-26

MEMENTO: Microsoft dạy LLM tự nén dòng suy luận, giảm 2.5× bộ nhớ và tăng 1.75× tốc độ

Microsoft Research vừa công bố MEMENTO — phương pháp huấn luyện cho phép LLM tự cắt chuỗi suy luận thành từng khối, nén mỗi khối thành một bản tóm tắt dày đặc rồi tiếp tục "nghĩ" chỉ dựa trên các bản tóm tắt đó. Kết quả: peak KV cache giảm ~2.5×, throughput tăng ~1.75× trên vLLM, độ chính xác gần như không đổi. Đây là lần đầu một mô hình học cách tự quản lý context thay vì chỉ mở rộng nó.

mementomicrosoft-researchllm-reasoning

7 phút đọc

#1642025-05-17

Microsoft MEMENTO: LLMs that compress their own chain-of-thought

Microsoft Research teaches reasoning models to summarise their own thinking mid-generation — 2.5x less peak KV cache, ~2x throughput, and a surprising 'hidden channel' in the KV states that alone is worth 15 accuracy points on AIME24.

microsoftmementollm-reasoning

7 phút đọc