GLM-5.2: Model open-source 1 triệu token dẫn đầu SWE-bench Pro, rẻ hơn GPT-5.5 sáu lần

TL;DR

GLM-5.2 của Zhipu AI ra mắt ngày 13/6/2026 với context window 1 triệu token, 753B tham số MoE và license MIT hoàn toàn mở. Trên SWE-bench Pro, model đạt 62.1 điểm - dẫn đầu nhóm open-source và vượt GPT-5.5 (58.6). Weights FP8 đã có trên HuggingFace, API giá $1.40/M input token, rẻ hơn GPT-5.5 khoảng 6 lần.

Zhipu AI và GLM-5.2

Zhipu AI - công ty AI Trung Quốc đã niêm yết công khai, hoạt động dưới thương hiệu Z.ai - tiếp tục đẩy frontier với GLM-5.2, phiên bản nâng cấp của GLM-5.1 tập trung vào coding agent và tác vụ dài hạn. Không giống các model đóng cùng thế hệ, Zhipu chọn MIT license, nghĩa là bất kỳ ai cũng có thể tải, chạy, fine-tune và triển khai không giới hạn địa lý hay thương mại.

Điểm khác biệt lớn nhất so với phiên bản trước: context window nhảy từ khoảng 200K lên 1 triệu token, kèm kiến trúc IndexShare mới giúp duy trì hiệu quả inference ở khoảng cách ngữ cảnh cực lớn. Model có 40B tham số active trên tổng 753B - đặc trưng của MoE, cho phép chạy nhanh hơn so với dense model cùng kích thước tổng.

1 triệu token có nghĩa là gì trong thực tế?

Context window 1 triệu token của GLM-5.2

1 triệu token tương đương khoảng 750,000 từ - đủ để nạp vào cùng lúc toàn bộ codebase một dự án trung bình, hàng trăm file tài liệu kỹ thuật, hoặc nhiều phiên debug liên tiếp mà không mất ngữ cảnh. Trước đây, các workflow coding agent phải chia codebase thành nhiều chunk rồi tổng hợp kết quả qua nhiều lần gọi - mỗi lần là một điểm có thể mất thông tin hoặc sinh ra mâu thuẫn.

Với GLM-5.2, cả codebase nằm trong một window duy nhất. Model tự tìm dependency, theo dõi ngữ cảnh qua nhiều file và thực hiện refactor quy mô lớn mà không cần nhớ lại từ lần gọi trước. Kiến trúc IndexShare reuse indexer qua mỗi 4 sparse attention layer, giúp duy trì tốc độ inference kể cả khi context gần đầy.

Benchmark: Đứng đâu trong bảng xếp hạng?

Zhipu đánh giá GLM-5.2 trên 8 benchmark coding và agent thực tế, tất cả ở chế độ thinking effort tối đa. GLM-5.2 dẫn đầu nhóm open-source trên toàn bộ 8 benchmark và vượt GPT-5.5 trên SWE-bench Pro lẫn MCP-Atlas.

Benchmark	GLM-5.2	Claude Opus 4.8	GPT-5.5	Gemini 3.1 Pro
SWE-bench Pro	62.1	69.2	58.6	54.2
Terminal-Bench 2.1	81.0	85.0	84.0	74.0
NL2Repo	48.9	69.7	50.7	33.4
DeepSWE	46.2	58.0	70.0	10.0
ProgramBench	63.7	71.9	70.8	39.5
MCP-Atlas	77.0	77.8	75.3	69.2
Tool-Decathlon	48.2	59.9	55.6	48.8
Humanity's Last Exam (w/Tools)	54.7	52.3	57.9	51.4

Đáng chú ý: Terminal-Bench 2.1 đạt 81.0, GLM-5.2 là model open-source đầu tiên vượt mốc 80 trên benchmark này. Humanity's Last Exam với tools đạt 54.7, vượt cả Claude Opus 4.8 (52.3). Claude Opus 4.8 vẫn dẫn đầu tổng thể - đặc biệt trên NL2Repo (69.7 so với 48.9) - nhưng GLM-5.2 dẫn đầu open-source và cạnh tranh trực tiếp với GPT-5.5 trên benchmark coding thực tế.

Ai nên dùng GLM-5.2?

Model này phù hợp nhất với:

Coding agent workflow - cần xử lý codebase lớn trong một context duy nhất, không muốn chia chunk
Nhóm self-host - muốn kiểm soát toàn bộ infrastructure, tránh phụ thuộc vào API đóng
Researcher - làm việc với tài liệu kỹ thuật dài hàng trăm trang trong một phiên
Multi-agent pipeline - cần model mạnh làm orchestrator với chi phí thấp

Với những tác vụ đòi hỏi NL2Repo hay suy luận dài hạn phức tạp, Claude Opus 4.8 vẫn là lựa chọn mạnh hơn đáng kể. GLM-5.2 tỏa sáng ở điểm giao giữa chi phí, khả năng self-host và coding agent thực tế.

Giá và cách truy cập

Có hai cách dùng GLM-5.2:

API qua Z.ai: $1.40/M input token, $4.40/M output token. So sánh: GPT-5.5 tính $5.00/$30.00 - rẻ hơn khoảng 6 lần trên output token.
Self-host: Weights FP8 tải trực tiếp từ HuggingFace (zai-org/GLM-5.2-FP8). Hỗ trợ SGLang, vLLM, Transformers và KTransformers.

MIT license không có ràng buộc vùng địa lý hay điều khoản thương mại đặc biệt. Code và hướng dẫn deploy có trên GitHub tại github.com/zai-org/GLM-5.

Đánh giá

GLM-5.2 là bước tiến thực chất nhất của open-source AI trong nửa đầu 2026. Không phải vì nó thắng mọi benchmark - Claude Opus 4.8 vẫn dẫn đầu tổng thể - mà vì lần đầu tiên một model mã nguồn mở có context 1M token dùng được trong coding agent thực tế, với giá khoảng 1/6 model đóng, và không có ràng buộc license nào.

Bộ ba "context cực lớn + coding mạnh + MIT" trước đây không có ai làm được cùng lúc. GLM-5.2 làm được.

via VentureBeat · AIToolly · StableLearn · Pandaily