// Popular Articles
DeepSeek V4 Pro tự giải 4 challenge bảo mật expert-level chỉ với $6.84
Một developer chạy DeepSeek V4 Pro autonomous trên 3 lab PortSwigger + 1 Android app thật — 412 tool calls, 4 hạng mục bảo mật khác nhau, được Claude Opus 4.7 review độc lập. Tổng chi phí cả ngày: $6.84.
Cuộc đua mới đã bắt đầu: Dựng obfuscation trong một cuối tuần là đủ để hạ Claude Opus 4.6
Elastic Security Labs vừa công bố nghiên cứu cho thấy chỉ cần một vòng lặp dev/test/refine ngắn là đủ để xây obfuscation nhắm thẳng vào điểm yếu của LLM reverse engineer — context window, budget cap, shortcut bias. Claude Opus 4.6 giải 40% binary do Tigress sinh ra, nhưng 0% ở Phase 3, và thất bại trước 3 biến thể tự chế chỉ tốn vài ngày dựng.
Fal Redesign: Claude Code skill biến trang vibe-coded thành thiết kế đẳng cấp
Fal Redesign là skill Claude Code mới do fal-ai community phát hành, dùng Claude Opus 4.7 + GPT Image 2 (và FLUX.2) để screenshot trang bạn vừa vibe-code, sinh mockup thiết kế lại, rồi viết ra build-spec có design tokens để áp thẳng vào HTML. Fully working nhưng super early — cài 1 dòng curl, gọi bằng câu `redesign index.html`.
Cloudflare chạy AI review trên mọi GitLab MR: 131k lượt/tháng, $1.19/review, mix Kimi K2.5 + Opus 4.7 + GPT-5.4
Cloudflare vừa hé lộ hệ thống AI Code Review nội bộ — mỗi merge request trên GitLab đều bị 1 đội AI reviewer mổ xẻ, routing model theo độ phức tạp MR, chạy trên 5,169 repo. 131,246 review trong 30 ngày, trung vị 3 phút 39 giây, cache hit 85.7%.
Qwen3-8B-OpusReasoning: Claude Opus-style thinking on an 8GB GPU for $52
TeichAI distilled 250 Claude Opus 4.5 high-reasoning traces into an 8B Qwen3 model for $52.3. The result: step-by-step Opus-style thinking that runs on consumer hardware via llama.cpp or Ollama.
FrontierSWE: Benchmark 20 giờ mà AI coding agent vẫn không giải nổi
Proximal vừa ra FrontierSWE — 17 bài toán khó cỡ kỹ sư giỏi (tối ưu compiler, viết server PostgreSQL trên SQLite, train model dự đoán tính chất lượng tử của phân tử). Mỗi agent có 20 giờ. GPT-5.4 và Claude Opus 4.6 dẫn đầu nhưng vẫn hiếm khi hoàn thành task.