Tất cả bài viết

// Popular Articles

#post-training

#6832026-02-03

500+ AI tự nghiên cứu AI: 72 giờ điên rồ đầu tiên của Hugging Face ml-intern

Hugging Face vừa thả ml-intern — AI agent tự đọc paper, tự dựng dataset, tự train model. Sau 72 giờ, hơn 500 dự án nghiên cứu tự động chạy song song liên tục trên Space, sinh ra những kiến trúc kỳ quái như transformer thay thế bằng năng lượng tối thiểu và attention mô phỏng não người.

ml-internhugging-faceai-agents

7 phút đọc

#4452025-10-05

Perplexity hậu-huấn luyện Qwen3.5 bằng SFT+RL: vượt GPT-5.4 trên FRAMES với chi phí rẻ hơn 4 lần

Perplexity công bố pipeline hậu-huấn luyện hai giai đoạn (SFT → GRPO) cho các mô hình search-augmented. Dựa trên Qwen3.5-397B-A17B, bản SFT-RL đạt 73.9% FRAMES ở ngân sách 4 tool call, vượt GPT-5.4 (67.8%) và Sonnet 4.6 (62.4%) với chi phí chỉ 2.0 cent/truy vấn — rẻ hơn 4× đến 7.5×.

perplexityqwen3-5post-training

7 phút đọc

#4442025-10-05

Perplexity hé lộ công thức post-training: SFT giữ hành vi, on-policy RL đẩy độ chính xác

Perplexity vừa công khai pipeline hai giai đoạn đứng sau mô hình Sonar: fine-tune để giữ instruction-following và guardrails, rồi on-policy RL để cải thiện độ chính xác tìm kiếm và hiệu quả gọi tool — nhưng không làm hỏng những hành vi đã cài ở bước đầu.

perplexityreinforcement-learninggrpo

7 phút đọc