Tag: #llm-agents

2 bài viết

#4022026-04-26

Tại sao LLM agent sụp đổ khi task dài: Không phải do reasoning, mà do số bước

RL training cho LLM agent sụp đổ hoàn toàn khi task vượt 20-30 bước, dù reasoning complexity không đổi - đây là reframing quan trọng nhất trong agentic AI 2026. Hai thủ phạm: exploration failure (quá nhiều đường đi) và credit assignment hỏng (bước đúng bị phạt vì trajectory dài thất bại). Macro actions và subgoals giải quyết cả hai, còn horizon generalization cho phép train trên task ngắn nhưng chạy được task dài.

agentic-aillm-engineeringreinforcement-learning

7 phút đọc

#2892026-04-16

Meta: coding agent mạnh hơn không phải vì chạy nhiều attempt hơn, mà vì biết ghi nhớ attempt tốt hơn

Paper mới của Meta + CMU/Princeton/AI2 (arxiv 2604.16529) chứng minh: thay vì feed raw log vào selector, hãy nén mỗi rollout thành summary ngắn rồi chạy tournament voting. Claude 4.5 Opus bật từ 70.9% lên 77.6% trên SWE-Bench Verified và 46.9% lên 59.1% trên Terminal-Bench v2.0.

agentic-codingtest-time-scalingmeta-fair

7 phút đọc