Tất cả bài viết

// Popular Articles

#dpo

#482025-03-20

15 LLM Fine-Tuning Techniques Mọi Practitioner Nên Biết (LoRA, DPO, GRPO & Co.)

Từ LoRA tiết kiệm bộ nhớ tới GRPO — động cơ huấn luyện DeepSeek-R1: bản đồ 15 kỹ thuật fine-tune LLM, chia theo 4 họ, khi nào dùng cái gì, và vì sao DPO đang là default alignment 2026.

llm-fine-tuningloraqlora

8 phút đọc