- RL training cho LLM agent sụp đổ hoàn toàn khi task vượt 20-30 bước, dù reasoning complexity không đổi - đây là reframing quan trọng nhất trong agentic AI 2026.
- Hai thủ phạm: exploration failure (quá nhiều đường đi) và credit assignment hỏng (bước đúng bị phạt vì trajectory dài thất bại).
- Macro actions và subgoals giải quyết cả hai, còn horizon generalization cho phép train trên task ngắn nhưng chạy được task dài.
TL;DR
Một loạt nghiên cứu 2025-2026 vừa lật ngược giả định phổ biến: khi LLM agent thất bại ở task dài, thủ phạm không phải là task quá phức tạp để suy luận - mà là task yêu cầu quá nhiều bước. Và hai yếu tố này hoàn toàn có thể tách biệt nhau. Train agent trên task 11-20 bước? RL chạy tốt. Kéo task đó lên 21-30+ bước với cùng reasoning complexity? Training sụp đổ hoàn toàn - không phải suy giảm dần, mà là mất kiểm soát hoàn toàn với output vô nghĩa, độ dài không kiểm soát.
Vấn đề thực sự là gì
Trong agentic AI, một task dài không chỉ khó hơn về mặt tư duy - nó còn tạo ra hai vấn đề cấu trúc mà RL không giải quyết được một cách tự nhiên.
Exploration failure: Với mỗi bước thêm vào, không gian các đường đi khả thi tăng theo hàm mũ. Ở 30 bước, agent về cơ bản đang tìm kiếm trong một mê cung khổng lồ mà mỗi ngõ đều trông giống nhau ở giai đoạn đầu. Policy gradient không thể hội tụ khi không gian tìm kiếm quá rộng.
Broken credit assignment: Khi một trajectory 30 bước thất bại, thuật toán RL phải phân bổ lỗi về các bước trước. Nhưng toán học của REINFORCE cho thấy gradient variance tăng theo O(T·Var[R]) - nghĩa là với horizon T dài, nhiễu (noise) từ regularization sẽ lấn át tín hiệu thực từ task. Hậu quả: ngay cả những bước đúng trong trajectory cũng bị phạt, khiến model học sai hoàn toàn.
RAGEN-2 (tháng 4/2026, arXiv 2604.06268) gọi hậu quả cuối cùng là template collapse: model vẫn tạo ra output trông đa dạng, nhưng thực chất không còn phản ứng với input nữa - nó chạy theo template cứng, input-agnostic. Mutual Information giữa input và reasoning giảm về gần 0, trong khi entropy (thước đo truyền thống) vẫn trông bình thường. Đó là lý do nhiều team không phát hiện ra sự cố cho đến khi deploy.
Cú reframe quan trọng
Trước đây, cộng đồng nghiên cứu ngầm hiểu rằng task dài thất bại vì nó khó hơn về reasoning. Nhà nghiên cứu thường xuyên thêm reasoning capacity, thêm compute, thêm chain-of-thought - nhưng kết quả cải thiện không đáng kể.
Framing mới tách biệt hai biến:
- Reasoning complexity (độ khó của từng quyết định)
- Horizon length (số bước trong trajectory)
Một task có reasoning phức tạp nhưng ít bước train tốt. Một task reasoning đơn giản nhưng nhiều bước sẽ collapse. Đây là sự tách biệt không ai dự đoán rõ ràng trước đây - và nó thay đổi cơ bản cách thiết kế hệ thống agentic.
Hai cách fix, một cơ chế
Cả hai giải pháp đều hoạt động bằng cách rút ngắn horizon hiệu dụng mà agent phải học:
Macro actions: Thay vì agent thực hiện từng bước nhỏ, bạn cho phép agent chọn một action "tổng hợp" bao gồm nhiều bước. Từ góc độ RL training, horizon T giảm xuống đáng kể. Phương pháp này không thay đổi task - chỉ thay đổi resolution của action space.
Verifiable subgoals: Thay vì đợi đến cuối trajectory mới có reward, bạn chia nhỏ goal thành các milestone có thể kiểm chứng được. MiRA (arXiv 2603.19685) áp dụng cách này với Gemma3-12B và kết quả đáng kinh ngạc: success rate tăng từ 6.4% lên 43.0% trên WebArena-Lite - vượt qua cả GPT-4-Turbo (17.6%) và GPT-4o (13.9%). HCAPO (arXiv 2603.08754) dùng hindsight credit assignment, cho kết quả +13.8% trên ALFWorld và +7.7% trên WebShop so với GRPO baseline.
Horizon generalization - điều bất ngờ nhất
Phát hiện thú vị nhất trong các nghiên cứu này không phải là hai fix trên - mà là horizon generalization.
Model được train trên task ngắn (11-20 bước) có thể generalize sang task dài (21-30+) lúc inference - mà không cần train trực tiếp trên long-horizon tasks.
Nền tảng lý thuyết đến từ nghiên cứu Horizon Generalization in Reinforcement Learning (ICLR 2025, arXiv 2501.02709): một policy được train để đạt các goal gần có thể thành công với goal xa tùy ý - miễn là policy có planning invariance (chọn action giống nhau dù hướng đến goal trực tiếp hay một waypoint trên đường đến goal đó).
Điều này có nghĩa là bạn không cần giải quyết bài toán khó của long-horizon training để deploy agent giải quyết task dài. Train trên cái dễ, deploy trên cái khó - và nó vẫn chạy.
Takeaway cho ai đang xây agentic system
Trước khi reach for a fancier algorithm, hãy tự hỏi:
- Action space của bạn có đang làm horizon unnecessarily dài không?
- Bạn có thể nhóm các bước nhỏ thành macro actions không?
- Task của bạn có thể chia thành subgoal có reward riêng không?
Theo nghiên cứu từ Apple's LOOP (arXiv 2502.01600), agent 32B được train đúng cách có thể vượt OpenAI o1 9 percentage points trên AppWorld environment - với chỉ 24 training scenarios. Design decision về horizon length quan trọng hơn model size hay thuật toán phức tạp.
Nguồn: RAGEN-2 (arXiv), HCAPO (arXiv), MiRA (arXiv), Horizon Generalization / ICLR 2025, LOOP / Apple (arXiv).

