// Popular Articles
Ouroboros: dạy mô hình nhỏ "suy nghĩ sâu" bằng cách lặp một lớp với hypernetwork
Mô hình lớn reason giỏi vì sâu — 70B có 80 lớp, mỗi lớp làm một việc khác nhau. Ouroboros (RightNow AI, arXiv 2604.02051) chứng minh mô hình nhỏ có thể bắt chước điều đó: lặp một lớp duy nhất nhiều lần, nhưng có hypernetwork 0.7M tham số sinh weight modification khác nhau cho từng vòng lặp. Kết quả trên Qwen2.5-3B cắt từ 36 còn 17 lớp: giảm 43.4% training loss, recover 51% gap, chỉ thêm 9.2M params (0.6%).
Looped Transformer chính là EBM inference: một phương trình, hai thế giới
Looped transformer và Energy-Based Model thực ra cùng một thuật toán gradient descent. Nhưng sự tương đương này không tự động đúng — nó đòi một ràng buộc Jacobian mà transformer thường không thỏa.