#482025-03-20
15 LLM Fine-Tuning Techniques Mọi Practitioner Nên Biết (LoRA, DPO, GRPO & Co.)
Từ LoRA tiết kiệm bộ nhớ tới GRPO — động cơ huấn luyện DeepSeek-R1: bản đồ 15 kỹ thuật fine-tune LLM, chia theo 4 họ, khi nào dùng cái gì, và vì sao DPO đang là default alignment 2026.