Tất cả bài viết

// Popular Articles

#grpo

#7822026-03-20

AVB drops a 50-minute GRPO + RLVR deep dive — and you watch logits move in real time

Avishek Biswas (@neural_avb) shipped a 50-minute long-form tutorial that walks through GRPO low-level mechanics, trains sub-1B SmolLM and Qwen3 models on text-based RLVR gym envs, and animates PPO updates so you literally see the policy logits shift. Code included.

grporlvrreinforcement-learning

7 phút đọc

#4452025-10-05

Perplexity hậu-huấn luyện Qwen3.5 bằng SFT+RL: vượt GPT-5.4 trên FRAMES với chi phí rẻ hơn 4 lần

Perplexity công bố pipeline hậu-huấn luyện hai giai đoạn (SFT → GRPO) cho các mô hình search-augmented. Dựa trên Qwen3.5-397B-A17B, bản SFT-RL đạt 73.9% FRAMES ở ngân sách 4 tool call, vượt GPT-5.4 (67.8%) và Sonnet 4.6 (62.4%) với chi phí chỉ 2.0 cent/truy vấn — rẻ hơn 4× đến 7.5×.

perplexityqwen3-5post-training

7 phút đọc

#4442025-10-05

Perplexity hé lộ công thức post-training: SFT giữ hành vi, on-policy RL đẩy độ chính xác

Perplexity vừa công khai pipeline hai giai đoạn đứng sau mô hình Sonar: fine-tune để giữ instruction-following và guardrails, rồi on-policy RL để cải thiện độ chính xác tìm kiếm và hiệu quả gọi tool — nhưng không làm hỏng những hành vi đã cài ở bước đầu.

perplexityreinforcement-learninggrpo

7 phút đọc

#1872025-05-29

Unsloth Studio: fine-tune LLM nhanh gấp đôi, bớt 70% VRAM — không cần code

Unsloth vừa ra mắt Studio (beta) — web UI no-code wrap toàn bộ engine Triton kernel tự viết. Train Qwen3.5, Gemma 4, DeepSeek, gpt-oss local, nhanh gấp 2×, ít 70% VRAM, không mất accuracy. Phân tích kỹ lý do vì sao custom kernel + GRPO + Data Recipes thay đổi cuộc chơi fine-tuning.

unslothllm-fine-tuningtriton-kernels

7 phút đọc

#942025-04-12

Phantom Clipping: Why Your RLHF Run Stalls When Trainer Is FP32 and vLLM Is BF16

Hugging Face's TRL team finally pinpointed a long-suspected RLHF failure mode. It is not noise. It is PPO's clip silently zeroing out 18% of tokens because the trainer and the inference engine disagree at the bit level.

rlhftrlppo

8 phút đọc

#482025-03-20

15 LLM Fine-Tuning Techniques Mọi Practitioner Nên Biết (LoRA, DPO, GRPO & Co.)

Từ LoRA tiết kiệm bộ nhớ tới GRPO — động cơ huấn luyện DeepSeek-R1: bản đồ 15 kỹ thuật fine-tune LLM, chia theo 4 họ, khi nào dùng cái gì, và vì sao DPO đang là default alignment 2026.

llm-fine-tuningloraqlora

8 phút đọc