Tất cả bài viết

// Popular Articles

#reinforcement-learning

#7822026-03-20

AVB drops a 50-minute GRPO + RLVR deep dive — and you watch logits move in real time

Avishek Biswas (@neural_avb) shipped a 50-minute long-form tutorial that walks through GRPO low-level mechanics, trains sub-1B SmolLM and Qwen3 models on text-based RLVR gym envs, and animates PPO updates so you literally see the policy logits shift. Code included.

grporlvrreinforcement-learning

7 phút đọc

#7602026-03-10

Stackelberg PPO: robot tự mọc tay để đẩy, mọc chân để đi — chỉ với 1 reward duy nhất

Schmidhuber và team KAUST/IDSIA biến co-design body+brain của robot thành một game leader-follower. Kết quả: robot tự tiến hoá thành tay đẩy hộp, chân di chuyển — vượt SoTA 20.66% trung bình, 32.02% trên task 3D phức tạp, dùng ít hơn 39% sample. Paper poster ICLR 2026 ngày 25/04.

stackelberg-ppomorphology-control-co-designiclr-2026

6 phút đọc

#7272026-02-24

SimToolReal: Robot Stanford học dùng công cụ chưa từng thấy — không cần training riêng cho từng task

Stanford & Cornell công bố SimToolReal — một policy RL duy nhất train hoàn toàn trong simulation nhưng có thể zero-shot cầm búa, marker, cờ-lê chưa từng thấy ngoài đời, vượt baseline 37% qua 120 thử nghiệm thật. Đây là bước nhảy quan trọng cho dexterous manipulation: thay vì engineer từng reward function cho từng tool, một policy phổ quát học cầm-xoay-thao-tác bất kỳ object dạng cuboid/cylinder nào, rồi áp dụng zero-shot vào tool thật.

simtoolrealstanforddexterous-manipulation

7 phút đọc

#6562026-01-20

Sim2Reason: LLM học vật lý từ MuJoCo, bỏ hẳn QA do người ghi nhãn

Sim2Reason (CMU + Lambda) biến mô phỏng vật lý thành cỗ máy sinh dữ liệu QA vô hạn để fine-tune LLM bằng RL. Kết quả: +17.9pp trên JEEBench, +5-10pp trên IPhO, zero-shot sang bài thật, không cần một dòng chú thích người viết.

sim2reasonllm-reasoningmujoco

7 phút đọc

#5562025-11-30

Sony AI "Ace" — Robot đầu tiên chơi bóng bàn ngang tầm VĐV chuyên nghiệp

Sony AI công bố trên cover tạp chí Nature: Ace — robot tự hành đầu tiên đánh bại cầu thủ bóng bàn elite dưới luật ITTF chính thức, với độ trễ end-to-end 20.2ms (nhanh hơn con người ~11 lần) và RL policy train hoàn toàn trong mô phỏng.

sony-airobot-bong-banphysical-ai

7 phút đọc

#4442025-10-05

Perplexity hé lộ công thức post-training: SFT giữ hành vi, on-policy RL đẩy độ chính xác

Perplexity vừa công khai pipeline hai giai đoạn đứng sau mô hình Sonar: fine-tune để giữ instruction-following và guardrails, rồi on-policy RL để cải thiện độ chính xác tìm kiếm và hiệu quả gọi tool — nhưng không làm hỏng những hành vi đã cài ở bước đầu.

perplexityreinforcement-learninggrpo

7 phút đọc

#4232025-09-24

Sony AI ra mắt Ace: robot đầu tiên hạ gục người chơi bóng bàn đẳng cấp elite

Ace của Sony AI vừa được công bố trên Nature ngày 22/4/2026 — robot tự hành đầu tiên đánh bại vận động viên bóng bàn elite. 9 camera dựng vị trí bóng 3D, 3 hệ gaze control đọc xoáy theo thời gian thực, 32 ms một vòng quyết định, và hàng ngàn giờ tự học trong mô phỏng — không có demo nào từ con người.

sony-airoboticsreinforcement-learning

7 phút đọc

#1592025-05-15

Mọi AI coding agent hiện nay đang được train sai cách — và có một paper vừa chứng minh điều đó

Nghiên cứu mới từ HKUST, NUS và PKU chỉ ra các coding agent train trên task tổng hợp (fix GitHub issue, pass test suite) chỉ học được heuristic của benchmark — không học được cách code. Lời giải: dạy 5 kỹ năng nguyên tử, train chung bằng joint RL. Kết quả: +18.7% trên cả 10 task, trong đó 5 task chưa từng có trong training.

ai-coding-agentsreinforcement-learningswe-bench

7 phút đọc