Tất cả bài viết

// Popular Articles

#looped-transformer

#8272026-04-09

Ouroboros: dạy mô hình nhỏ "suy nghĩ sâu" bằng cách lặp một lớp với hypernetwork

Mô hình lớn reason giỏi vì sâu — 70B có 80 lớp, mỗi lớp làm một việc khác nhau. Ouroboros (RightNow AI, arXiv 2604.02051) chứng minh mô hình nhỏ có thể bắt chước điều đó: lặp một lớp duy nhất nhiều lần, nhưng có hypernetwork 0.7M tham số sinh weight modification khác nhau cho từng vòng lặp. Kết quả trên Qwen2.5-3B cắt từ 36 còn 17 lớp: giảm 43.4% training loss, recover 51% gap, chỉ thêm 9.2M params (0.6%).

ouroboroslooped-transformerrecursive-transformer

7 phút đọc

#4122025-09-19

Looped Transformer chính là EBM inference: một phương trình, hai thế giới

Looped transformer và Energy-Based Model thực ra cùng một thuật toán gradient descent. Nhưng sự tương đương này không tự động đúng — nó đòi một ràng buộc Jacobian mà transformer thường không thỏa.

looped-transformerenergy-based-modelebt

7 phút đọc