#4702025-10-17
Meta: coding agent mạnh hơn không phải vì chạy nhiều attempt hơn, mà vì biết ghi nhớ attempt tốt hơn
Paper mới của Meta + CMU/Princeton/AI2 (arxiv 2604.16529) chứng minh: thay vì feed raw log vào selector, hãy nén mỗi rollout thành summary ngắn rồi chạy tournament voting. Claude 4.5 Opus bật từ 70.9% lên 77.6% trên SWE-Bench Verified và 46.9% lên 59.1% trên Terminal-Bench v2.0.