Tất cả bài viết

// Popular Articles

#llm-reasoning

#6562026-01-20

Sim2Reason: LLM học vật lý từ MuJoCo, bỏ hẳn QA do người ghi nhãn

Sim2Reason (CMU + Lambda) biến mô phỏng vật lý thành cỗ máy sinh dữ liệu QA vô hạn để fine-tune LLM bằng RL. Kết quả: +17.9pp trên JEEBench, +5-10pp trên IPhO, zero-shot sang bài thật, không cần một dòng chú thích người viết.

sim2reasonllm-reasoningmujoco

7 phút đọc

#1812025-05-26

MEMENTO: Microsoft dạy LLM tự nén dòng suy luận, giảm 2.5× bộ nhớ và tăng 1.75× tốc độ

Microsoft Research vừa công bố MEMENTO — phương pháp huấn luyện cho phép LLM tự cắt chuỗi suy luận thành từng khối, nén mỗi khối thành một bản tóm tắt dày đặc rồi tiếp tục "nghĩ" chỉ dựa trên các bản tóm tắt đó. Kết quả: peak KV cache giảm ~2.5×, throughput tăng ~1.75× trên vLLM, độ chính xác gần như không đổi. Đây là lần đầu một mô hình học cách tự quản lý context thay vì chỉ mở rộng nó.

mementomicrosoft-researchllm-reasoning

7 phút đọc

#1642025-05-17

Microsoft MEMENTO: LLMs that compress their own chain-of-thought

Microsoft Research teaches reasoning models to summarise their own thinking mid-generation — 2.5x less peak KV cache, ~2x throughput, and a surprising 'hidden channel' in the KV states that alone is worth 15 accuracy points on AIME24.

microsoftmementollm-reasoning

7 phút đọc