Harness Engineering: Khi Scaffolding Quan Trọng Hơn Model
Claude Opus 4.6 xếp hạng #33 trên Terminal Bench 2.0 trong native harness, nhưng vọt lên #5 chỉ bằng cách thay đổi cấu hình - không đụng vào model. ~98.4% codebase của Claude Code là infrastructure, chỉ 1.6% là AI decision logic. Harness engineering - discipline thiết kế scaffolding xung quanh model - đang trở thành kỹ năng cốt lõi của agentic era.
Model-Harness-Fit: Tại sao đổi model không đơn giản như đổi API key
GPT-5.5 đạt 61.5% trong Codex harness nhưng 87.2% khi chạy trong Cursor - cùng model, cùng tuần, chênh nhau 25.7 điểm. Claude Opus 4.6 đạt 79.8% với ForgeCode nhưng chỉ 58.0% với harness gốc Claude Code của Anthropic. LangChain tăng 13.7 điểm trên Terminal-Bench 2.0 chỉ bằng cách thay harness, không đổi model. Harness không còn là lớp bọc bên ngoài model - nó là một phần effective parameters của model.