#392025-03-16
FrontierSWE: Benchmark 20 giờ mà AI coding agent vẫn không giải nổi
Proximal vừa ra FrontierSWE — 17 bài toán khó cỡ kỹ sư giỏi (tối ưu compiler, viết server PostgreSQL trên SQLite, train model dự đoán tính chất lượng tử của phân tử). Mỗi agent có 20 giờ. GPT-5.4 và Claude Opus 4.6 dẫn đầu nhưng vẫn hiếm khi hoàn thành task.