#6282026-01-06
Biến Transformer thành Mamba thuần, không cần Attention: công thức distillation từ Apple, MILA, Flatiron
Nhóm nghiên cứu Apple – MILA – Flatiron vừa công bố HedgeMamba: công thức 2 bước distill Transformer thành Mamba thuần (không hybrid). Chỉ với 10B token (~2,7% ngân sách huấn luyện teacher), mô hình học trò đạt perplexity 14.11 so với 13.86 của Pythia-1B — gần như giữ nguyên hiệu năng mà vẫn thừa hưởng O(1) memory của SSM.