// Popular Articles

#microsoft-research
BitNet 1.58-bit: Microsoft chạy LLM 100B trên 1 CPU, không nhân số thực
#6492026-01-17

BitNet 1.58-bit: Microsoft chạy LLM 100B trên 1 CPU, không nhân số thực

Microsoft huấn luyện LLM với trọng số ternary {-1, 0, 1} từ đầu — ma trận nhân biến thành cộng/trừ/bỏ qua trên số nguyên. Kết quả: 2B4T nhỏ 0.4GB, nhanh 29ms/token CPU, tốn 0.028J/token, và bitnet.cpp có thể vận hành mô hình 100B trên 1 CPU ở tốc độ 5–7 token/giây. Đây không phải nén mô hình, đây là đổi nguyên lý tính toán.

bitnetmicrosoft-research1-bit-llm
7 phút đọc
Microsoft Research ra mắt AutoAdapt: tự động hoá tinh chỉnh LLM cho ngành, hơn AutoML 25% mà gần như không tốn thêm compute
#4182025-09-22

Microsoft Research ra mắt AutoAdapt: tự động hoá tinh chỉnh LLM cho ngành, hơn AutoML 25% mà gần như không tốn thêm compute

AutoAdapt là framework mới của Microsoft Research biến quy trình đưa LLM vào domain chuyên biệt — y tế, luật, cloud incident — từ 'nhiều tuần tinh chỉnh thủ công' thành một pipeline tự động, có ràng buộc ngân sách, đánh bại các baseline AutoML 25% trên 10 task với chỉ ~30 phút và ~$4 overhead mỗi task.

autoadaptmicrosoft-researchllm-fine-tuning
7 phút đọc
MEMENTO: Microsoft dạy LLM tự nén dòng suy luận, giảm 2.5× bộ nhớ và tăng 1.75× tốc độ
#1812025-05-26

MEMENTO: Microsoft dạy LLM tự nén dòng suy luận, giảm 2.5× bộ nhớ và tăng 1.75× tốc độ

Microsoft Research vừa công bố MEMENTO — phương pháp huấn luyện cho phép LLM tự cắt chuỗi suy luận thành từng khối, nén mỗi khối thành một bản tóm tắt dày đặc rồi tiếp tục "nghĩ" chỉ dựa trên các bản tóm tắt đó. Kết quả: peak KV cache giảm ~2.5×, throughput tăng ~1.75× trên vLLM, độ chính xác gần như không đổi. Đây là lần đầu một mô hình học cách tự quản lý context thay vì chỉ mở rộng nó.

mementomicrosoft-researchllm-reasoning
7 phút đọc