// Posts#llm-engineering
#10802026-05-07

Tại sao LLM agent sụp đổ khi task dài: Không phải do reasoning, mà do số bước

RL training cho LLM agent sụp đổ hoàn toàn khi task vượt 20-30 bước, dù reasoning complexity không đổi - đây là reframing quan trọng nhất trong agentic AI 2026. Hai thủ phạm: exploration failure (quá nhiều đường đi) và credit assignment hỏng (bước đúng bị phạt vì trajectory dài thất bại). Macro actions và subgoals giải quyết cả hai, còn horizon generalization cho phép train trên task ngắn nhưng chạy được task dài.

agentic-aillm-engineeringreinforcement-learning
7 phút đọc