// Popular Articles

#ai-benchmarks
#6212026-01-03

DeepSeek V4 Pro & Flash leo Arena: 1.6T params, 1M context, rẻ hơn Claude 7 lần

DeepSeek vừa phát hành preview V4 ngày 24/04/2026 với hai model MoE — Pro (1.6T params, 49B activated) và Flash (284B, 13B activated) — cả hai đều context 1M token. V4-Pro leo #3 open model trên Code Arena, #2 trên Text Arena, sánh ngang GPT-5.4 và Kimi-2.6. Codeforces 3206 vượt GPT-5.4, giá output chỉ $3.48/M — rẻ hơn Claude Opus 4.6 tới 7 lần.

deepseek-v4open-source-llmarena-leaderboard
7 phút đọc
Lovable test GPT-5.5 early access: -23% tool calls, +12.5% điểm benchmark khó nhất
#5662025-12-05

Lovable test GPT-5.5 early access: -23% tool calls, +12.5% điểm benchmark khó nhất

Lovable vừa công bố kết quả eval nội bộ sau khi chạy GPT-5.5 trong early-access: 23.1% ít tool call hơn, 10% break-through roadblock tốt hơn, 12.5% cao điểm trên benchmark khó nhất — cùng cost. Đằng sau những con số này là một OpenAI đang đẩy ChatGPT/Codex từ chat-bot thành agent thật.

gpt-5-5openailovable
7 phút đọc
Claude Opus 4.7 cán đích đồng hạng nhất Intelligence Index, dẫn đầu GDPval-AA về năng lực agentic thực tế
#572025-03-25

Claude Opus 4.7 cán đích đồng hạng nhất Intelligence Index, dẫn đầu GDPval-AA về năng lực agentic thực tế

Opus 4.7 đạt 57.3 điểm Intelligence Index — lần đầu tiên trong lịch sử Artificial Analysis có 3 lab cùng đồng hạng nhất với GPT-5.4 và Gemini 3.1 Pro. Anthropic dẫn đầu GDPval-AA về công việc tri thức, dùng ít hơn 35% output token so với Opus 4.6 nhưng điểm cao hơn 4 bậc, và giữ nguyên giá $5/$25 per 1M tokens.

claude-opus-4-7anthropicai-benchmarks
7 phút đọc