Tất cả bài viết

// Popular Articles

#swe-bench

#5032025-11-03

GLM-5.1 ra mắt: model open-weight đầu tiên vượt Opus 4.6 trên SWE-Bench Pro, chạy được trên Mac Studio 256GB

Z.AI công bố GLM-5.1 — MoE 754B params, MIT license, đạt 58.4 trên SWE-Bench Pro (vượt Claude Opus 4.6 và GPT-5.4), duy trì agentic execution 8 giờ liên tục và chạy được local trên Mac Studio 256GB ở 18.47 t/s. BytePlus đã bundle vào ModelArk Coding Plan cùng 5 model elite khác.

glm-5-1open-source-llmz-ai

7 phút đọc

#4702025-10-17

Meta: coding agent mạnh hơn không phải vì chạy nhiều attempt hơn, mà vì biết ghi nhớ attempt tốt hơn

Paper mới của Meta + CMU/Princeton/AI2 (arxiv 2604.16529) chứng minh: thay vì feed raw log vào selector, hãy nén mỗi rollout thành summary ngắn rồi chạy tournament voting. Claude 4.5 Opus bật từ 70.9% lên 77.6% trên SWE-Bench Verified và 46.9% lên 59.1% trên Terminal-Bench v2.0.

agentic-codingtest-time-scalingmeta-fair

7 phút đọc

#1942025-06-01

Claude Opus 4.7 giành lại ngôi vương AI coding: 64.3% SWE-bench Pro, thị lực 3x, tự kiểm tra output

Anthropic tung Claude Opus 4.7 ngày 16/4/2026 với 64.3% SWE-bench Pro — vượt GPT-5.4 (57.7%) và Gemini 3.1 Pro (54.2%). Ảnh 3.75MP, auto mode, /ultrareview, và model tự verify output trước khi trả về.

claude-opus-4-7anthropicai-coding

7 phút đọc

#1592025-05-15

Mọi AI coding agent hiện nay đang được train sai cách — và có một paper vừa chứng minh điều đó

Nghiên cứu mới từ HKUST, NUS và PKU chỉ ra các coding agent train trên task tổng hợp (fix GitHub issue, pass test suite) chỉ học được heuristic của benchmark — không học được cách code. Lời giải: dạy 5 kỹ năng nguyên tử, train chung bằng joint RL. Kết quả: +18.7% trên cả 10 task, trong đó 5 task chưa từng có trong training.

ai-coding-agentsreinforcement-learningswe-bench

7 phút đọc