// Popular Articles

#cross-architecture-distillation
#6282026-01-06

Biến Transformer thành Mamba thuần, không cần Attention: công thức distillation từ Apple, MILA, Flatiron

Nhóm nghiên cứu Apple – MILA – Flatiron vừa công bố HedgeMamba: công thức 2 bước distill Transformer thành Mamba thuần (không hybrid). Chỉ với 10B token (~2,7% ngân sách huấn luyện teacher), mô hình học trò đạt perplexity 14.11 so với 13.86 của Pythia-1B — gần như giữ nguyên hiệu năng mà vẫn thừa hưởng O(1) memory của SSM.

mambastate-space-modelscross-architecture-distillation
7 phút đọc