#4442025-10-05
Perplexity hé lộ công thức post-training: SFT giữ hành vi, on-policy RL đẩy độ chính xác
Perplexity vừa công khai pipeline hai giai đoạn đứng sau mô hình Sonar: fine-tune để giữ instruction-following và guardrails, rồi on-policy RL để cải thiện độ chính xác tìm kiếm và hiệu quả gọi tool — nhưng không làm hỏng những hành vi đã cài ở bước đầu.