Tất cả bài viết

// Popular Articles

#llm-training

#7972026-03-28

Muon không phải optimizer của Kimi: Sự thật về cha đẻ thật sự

Cộng đồng đang gọi Muon là 'optimizer của Kimi' sau khi Moonshot AI công bố Moonlight và K2. Sự thật: Muon do Keller Jordan (OpenAI) phát minh tháng 10/2024 để phá kỷ lục nanoGPT speedrun của Andrej Karpathy. Kimi chỉ là bên đầu tiên chứng minh nó scale được. Cùng làm rõ ai làm gì.

muon-optimizerkeller-jordanmoonshot-ai

7 phút đọc

#6582026-01-21

Vì sao DeepSeek V4 chậm ra mắt: bóc tách hai 'miếng băng dán' giữ cho quá trình training 33T tokens khỏi vỡ

DeepSeek V4 preview vừa ra ngày 24/04/2026 sau hơn 4 tháng im ắng. Báo cáo kỹ thuật nhắc chữ 'stability' hơn 10 lần, nhưng hai kỹ thuật chính để giữ training khỏi sụp — Anticipatory Routing (mismatched routing) và SwiGLU Clamping — nghe có vẻ vá víu hơn là giải pháp nền. Susan Zhang (@suchenzang) chỉ ra điểm này; bài này bóc tách xem tại sao.

deepseek-v4training-stabilitymoe

7 phút đọc

#3172025-08-02

ml-intern: Hugging Face vừa ra con agent tự train model từ 1 dòng prompt — đập Claude Code 10 điểm GPQA

Hugging Face vừa open-source ml-intern: agent đọc paper, đi theo citation graph, kéo dataset, viết script, chạy training trên A100, tự diagnose khi reward collapse. Từ Qwen3-1.7B nâng GPQA 10% → 32% trong <10 giờ — Claude Code best chỉ 22.99%. Beat Codex trên HealthBench 60% bằng synthetic data nó tự sinh.

ml-internhugging-faceai-agent

7 phút đọc

#1592025-05-15

Mọi AI coding agent hiện nay đang được train sai cách — và có một paper vừa chứng minh điều đó

Nghiên cứu mới từ HKUST, NUS và PKU chỉ ra các coding agent train trên task tổng hợp (fix GitHub issue, pass test suite) chỉ học được heuristic của benchmark — không học được cách code. Lời giải: dạy 5 kỹ năng nguyên tử, train chung bằng joint RL. Kết quả: +18.7% trên cả 10 task, trong đó 5 task chưa từng có trong training.

ai-coding-agentsreinforcement-learningswe-bench

7 phút đọc