// Popular Articles
AVB drops a 50-minute GRPO + RLVR deep dive — and you watch logits move in real time
Avishek Biswas (@neural_avb) shipped a 50-minute long-form tutorial that walks through GRPO low-level mechanics, trains sub-1B SmolLM and Qwen3 models on text-based RLVR gym envs, and animates PPO updates so you literally see the policy logits shift. Code included.
Perplexity hậu-huấn luyện Qwen3.5 bằng SFT+RL: vượt GPT-5.4 trên FRAMES với chi phí rẻ hơn 4 lần
Perplexity công bố pipeline hậu-huấn luyện hai giai đoạn (SFT → GRPO) cho các mô hình search-augmented. Dựa trên Qwen3.5-397B-A17B, bản SFT-RL đạt 73.9% FRAMES ở ngân sách 4 tool call, vượt GPT-5.4 (67.8%) và Sonnet 4.6 (62.4%) với chi phí chỉ 2.0 cent/truy vấn — rẻ hơn 4× đến 7.5×.
Perplexity hé lộ công thức post-training: SFT giữ hành vi, on-policy RL đẩy độ chính xác
Perplexity vừa công khai pipeline hai giai đoạn đứng sau mô hình Sonar: fine-tune để giữ instruction-following và guardrails, rồi on-policy RL để cải thiện độ chính xác tìm kiếm và hiệu quả gọi tool — nhưng không làm hỏng những hành vi đã cài ở bước đầu.
Unsloth Studio: fine-tune LLM nhanh gấp đôi, bớt 70% VRAM — không cần code
Unsloth vừa ra mắt Studio (beta) — web UI no-code wrap toàn bộ engine Triton kernel tự viết. Train Qwen3.5, Gemma 4, DeepSeek, gpt-oss local, nhanh gấp 2×, ít 70% VRAM, không mất accuracy. Phân tích kỹ lý do vì sao custom kernel + GRPO + Data Recipes thay đổi cuộc chơi fine-tuning.
Phantom Clipping: Why Your RLHF Run Stalls When Trainer Is FP32 and vLLM Is BF16
Hugging Face's TRL team finally pinpointed a long-suspected RLHF failure mode. It is not noise. It is PPO's clip silently zeroing out 18% of tokens because the trainer and the inference engine disagree at the bit level.
15 LLM Fine-Tuning Techniques Mọi Practitioner Nên Biết (LoRA, DPO, GRPO & Co.)
Từ LoRA tiết kiệm bộ nhớ tới GRPO — động cơ huấn luyện DeepSeek-R1: bản đồ 15 kỹ thuật fine-tune LLM, chia theo 4 họ, khi nào dùng cái gì, và vì sao DPO đang là default alignment 2026.