Tất cả bài viết

// Popular Articles

#search-augmented

#4452025-10-05

Perplexity hậu-huấn luyện Qwen3.5 bằng SFT+RL: vượt GPT-5.4 trên FRAMES với chi phí rẻ hơn 4 lần

Perplexity công bố pipeline hậu-huấn luyện hai giai đoạn (SFT → GRPO) cho các mô hình search-augmented. Dựa trên Qwen3.5-397B-A17B, bản SFT-RL đạt 73.9% FRAMES ở ngân sách 4 tool call, vượt GPT-5.4 (67.8%) và Sonnet 4.6 (62.4%) với chi phí chỉ 2.0 cent/truy vấn — rẻ hơn 4× đến 7.5×.

perplexityqwen3-5post-training

7 phút đọc