Tại sao LLM agent sụp đổ khi task dài: Không phải do reasoning, mà do số bước
RL training cho LLM agent sụp đổ hoàn toàn khi task vượt 20-30 bước, dù reasoning complexity không đổi - đây là reframing quan trọng nhất trong agentic AI 2026. Hai thủ phạm: exploration failure (quá nhiều đường đi) và credit assignment hỏng (bước đúng bị phạt vì trajectory dài thất bại). Macro actions và subgoals giải quyết cả hai, còn horizon generalization cho phép train trên task ngắn nhưng chạy được task dài.
Perplexity hé lộ công thức post-training: SFT giữ hành vi, on-policy RL đẩy độ chính xác
Perplexity vừa công khai pipeline hai giai đoạn đứng sau mô hình Sonar: fine-tune để giữ instruction-following và guardrails, rồi on-policy RL để cải thiện độ chính xác tìm kiếm và hiệu quả gọi tool — nhưng không làm hỏng những hành vi đã cài ở bước đầu.
Mọi AI coding agent hiện nay đang được train sai cách — và có một paper vừa chứng minh điều đó
Nghiên cứu mới từ HKUST, NUS và PKU chỉ ra các coding agent train trên task tổng hợp (fix GitHub issue, pass test suite) chỉ học được heuristic của benchmark — không học được cách code. Lời giải: dạy 5 kỹ năng nguyên tử, train chung bằng joint RL. Kết quả: +18.7% trên cả 10 task, trong đó 5 task chưa từng có trong training.