// Popular Articles

#mamba
#6282026-01-06

Biến Transformer thành Mamba thuần, không cần Attention: công thức distillation từ Apple, MILA, Flatiron

Nhóm nghiên cứu Apple – MILA – Flatiron vừa công bố HedgeMamba: công thức 2 bước distill Transformer thành Mamba thuần (không hybrid). Chỉ với 10B token (~2,7% ngân sách huấn luyện teacher), mô hình học trò đạt perplexity 14.11 so với 13.86 của Pythia-1B — gần như giữ nguyên hiệu năng mà vẫn thừa hưởng O(1) memory của SSM.

mambastate-space-modelscross-architecture-distillation
7 phút đọc
NVIDIA Nemotron 3 Super: 120B Open Model With Only 12B Active — Built To Be An Agent's Brain
#1382025-05-04

NVIDIA Nemotron 3 Super: 120B Open Model With Only 12B Active — Built To Be An Agent's Brain

NVIDIA's Nemotron 3 Super is a 120B-parameter, 12B-active hybrid Mamba-Transformer MoE that scores 60.47 on SWE-Bench Verified, holds 91.75 on RULER at 1M tokens (while GPT-OSS-120B collapses to 22.3), and ships fully open — weights, datasets, and training recipes.

nemotron-3-supernvidiaopen-source-llm
7 phút đọc