Tất cả bài viết

// Popular Articles

#llm-benchmarks

#5372025-11-20

GPT-5.5 vừa ra mắt: 58.6% SWE-Bench Pro, 82.7% Terminal-Bench, vượt Opus 4.5 và Gemini 3.1 Pro trên agentic coding

OpenAI tung GPT-5.5 chỉ 6 tuần sau GPT-5.4. Context 1M, giá $5/$30 per M tokens, tự chạy tool đến khi xong việc, và theo benchmark chính chủ thì đang đứng đầu cuộc đua agentic coding.

gpt-5-5openaiagentic-coding

6 phút đọc

#1942025-06-01

Claude Opus 4.7 giành lại ngôi vương AI coding: 64.3% SWE-bench Pro, thị lực 3x, tự kiểm tra output

Anthropic tung Claude Opus 4.7 ngày 16/4/2026 với 64.3% SWE-bench Pro — vượt GPT-5.4 (57.7%) và Gemini 3.1 Pro (54.2%). Ảnh 3.75MP, auto mode, /ultrareview, và model tự verify output trước khi trả về.

claude-opus-4-7anthropicai-coding

7 phút đọc

#1452025-05-08

Opus 4.7 vs Opus 4.6: Bước nhảy coding, vision và cái giá phải trả

Anthropic ra Claude Opus 4.7 ngày 16/04/2026. Cùng giá với 4.6 nhưng thắng 12/14 benchmark, SWE-bench Verified nhảy từ 80.8% lên 87.6%, vision tăng 3× độ phân giải. Tokenizer mới có thể làm hoá đơn API tăng tới 35%. Khi nào nên upgrade, khi nào nên ở lại 4.6.

claude-opus-4-7anthropicai-coding

7 phút đọc

#262025-03-09

Claude Opus 4.7 ra mắt: Anthropic muốn bạn giao việc khó nhất rồi đi chơi

Claude Opus 4.7 ra mắt 16/4/2026: +10.9 điểm SWE-bench Pro so với 4.6, verify output trước khi trả lời, Notion Agent 1/3 tool errors, XBOW visual-acuity 98.5% vs 54.5%. Giá giữ nguyên $5/$25 per 1M tokens.

claude-opus-4-7anthropicai-agents

7 phút đọc