Tất cả bài viết

// Popular Articles

#recursive-transformer

#8272026-04-09

Ouroboros: dạy mô hình nhỏ "suy nghĩ sâu" bằng cách lặp một lớp với hypernetwork

Mô hình lớn reason giỏi vì sâu — 70B có 80 lớp, mỗi lớp làm một việc khác nhau. Ouroboros (RightNow AI, arXiv 2604.02051) chứng minh mô hình nhỏ có thể bắt chước điều đó: lặp một lớp duy nhất nhiều lần, nhưng có hypernetwork 0.7M tham số sinh weight modification khác nhau cho từng vòng lặp. Kết quả trên Qwen2.5-3B cắt từ 36 còn 17 lớp: giảm 43.4% training loss, recover 51% gap, chỉ thêm 9.2M params (0.6%).

ouroboroslooped-transformerrecursive-transformer

7 phút đọc