TL;DR

Cùng một prompt làm game karting, chạy qua hai model vừa ra mắt cuối tháng 4/2026: Deepseek V4 ProGPT-5.5. Kết quả từ @atomic_chat_hq: V4 Pro tốn $0.07656, GPT-5.5 tốn $0.33063 — rẻ hơn 4.3 lần. V4 Pro cũng sinh gấp gần 2 lần token (18,869 so với 10,580). Nhưng khi mở game ra chơi thử, GPT-5.5 mới là bên làm ra product chỉn chu hơn: visual đẹp hơn, creative direction rõ hơn, polish cao hơn. Bài học: token rẻ không tự biến thành game hay.

Chuyện gì vừa xảy ra

Ngày 23/4/2026, OpenAI ra GPT-5.5 — base model retrain hoàn toàn đầu tiên kể từ GPT-4.5, omnimodal (text, image, audio, video trong một model duy nhất), context 1M token. Đúng một ngày sau, DeepSeek tung V4 Preview: hai model MoE, V4-Flash 284B và V4-Pro 1.6T total params (49B active), đều open-weights MIT, context 1M token.

Cộng đồng lập tức muốn biết: với cùng một yêu cầu sản phẩm thực tế — làm game karting — con nào cho output xài được hơn? @atomic_chat_hq chạy thử và công bố kết quả ngày 24/4.

Số liệu run: cost, speed, tokens

Chỉ sốDeepseek V4 ProGPT-5.5
Cost / run$0.07656$0.33063
Throughput34 tok/s25 tok/s
Thời gian hoàn thành9 phút 5 giây7 phút 5 giây
Tokens output18,86910,580

Đọc ngang bảng: V4 Pro token rẻ hơn nhiều (giá niêm yết $3.48/M output so với GPT-5.5 $30/M output), chạy nhanh hơn mỗi token, và viết nhiều hơn. Nhưng GPT-5.5 lại hoàn thành task sớm hơn 2 phút vì cần ít token hơn để giải quyết vấn đề — đó là tín hiệu đầu tiên cho thấy V4 Pro đang dành effort vào chỗ không đổi thành giá trị cuối.

Kết quả chơi thử: GPT-5.5 thắng rõ

Đây mới là phần quan trọng. @atomic_chat_hq mô tả game của GPT-5.5 có đồ hoạ tốt hơn, visual polish cao hơn, creative direction chặt hơn và overall execution mạnh hơn. V4 Pro vấp đúng vào ba điểm đó: graphics yếu, visual thô, thiếu ý tưởng dẫn dắt.

Điều này đặc biệt đáng chú ý vì V4 Pro được DeepSeek định vị là model mạnh về coding — và đúng là ở nhiều benchmark coding thuần (LiveCodeBench 93.5, Codeforces Elo 3206) nó đang dẫn đầu. Nhưng karting không phải LeetCode. Nó là một task end-to-end cần tư duy game design, cảm quan thẩm mỹ, asset choreography — phần mà omnimodal + agentic capabilities của GPT-5.5 phát huy.

Vì sao điều này quan trọng với dev

Rẻ hơn 4.3 lần nghe rất hấp dẫn — tương đương với việc bạn có thể thử prompt 4 lần với V4 Pro cho bằng 1 lần GPT-5.5. Với một pipeline iterative (sinh → review → sửa → tái sinh), lợi thế giá của DeepSeek có thể lật ngược bàn cờ.

Nhưng nếu bạn đang cần một artifact shippable ngay từ lần đầu — một game demo cho Product Hunt, một MVP cho nhà đầu tư xem cuối tuần — thì trả thêm $0.25 để có creative direction tử tế là deal tốt. Chi phí thời gian sửa sau (re-art, re-polish) thường vượt xa chi phí token.

Benchmark so sánh rộng hơn

Ngoài karting, bức tranh tổng thể giữa hai model:

  • Terminal-Bench 2.0 (agentic coding): GPT-5.5 đạt 82.7%, cao hơn GPT-5.4 7.6 điểm.
  • SWE-Bench Verified: V4 Pro 80.6% bám sát Claude Opus 4.6 (80.8%). GPT-5.5 dẫn SWE-Bench Pro với 58.6% single-pass.
  • LiveCodeBench: V4 Pro 93.5 (#1 toàn cầu).
  • Codeforces Elo: V4-Pro-Max 3206, vượt GPT-5.4 xHigh.
  • FrontierMath Tier 4: GPT-5.5 35.4%, GPT-5.5-pro 39.6%.
  • MRCR v2 ở 1M token: GPT-5.5 74.0% — gấp đôi GPT-5.4.

Pattern rõ ràng: V4 thắng ở coding thuần tuý và cost-efficiency; GPT-5.5 thắng ở agentic, long-context reasoning, omnimodal và các task có yếu tố creative.

Khi nào chọn con nào

Chọn GPT-5.5 khi: cần visual polish, output đa phương tiện, agentic workflow thật sự (điều khiển browser, chạy tools), hoặc bất kỳ task end-to-end nào mà creative direction quan trọng hơn token economics. Làm demo game, prototype UI, đoạn video promo — GPT-5.5.

Chọn Deepseek V4 Pro khi: khối lượng coding lớn, bài toán algorithmic, batch job long-context, self-host open-weights, hoặc pipeline cần nhiều lần thử với budget hạn chế. CI bot, mass refactor, research crawler — V4 Pro.

Hạn chế & lưu ý khi đọc kết quả

Đây là một run duy nhất, không có ý nghĩa thống kê. Prompt karting gốc cũng không public trong snippet — chất lượng đánh giá phần nhiều qualitative. V4 là text-only, không sinh sprite / audio / đọc video được — đó là handicap cấu trúc trong mọi task gamedev asset-heavy, không phải lỗi của model. Simon Willison ghi nhận V4 "trail state-of-the-art frontier models by approximately 3 to 6 months" ở knowledge benchmarks.

Next steps cho bạn

Cách tốt nhất không phải đọc benchmark — là tự chạy cùng prompt karting trên model bạn đang dùng (Claude Opus 4.7, Gemini 3.0 Pro, Qwen, Kimi, Grok...) và so sánh artifact cuối. Tính ra ROI thật: cost / polish / time-to-ship. Post kết quả lại cho cộng đồng.

Nguồn: @atomic_chat_hq, OpenAI, DeepSeek API Docs, Simon Willison, TechCrunch.