- deepagents-cli của LangChain nhảy từ ngoài Top 30 lên Top 5 trên Terminal-Bench 2.0 với mức tăng 13.7 điểm — mà model bên dưới không đổi.
- Meta-Harness của Stanford đạt 76.4% trên cùng benchmark khi dùng Claude Opus 4.6.
- Team Frontier của OpenAI đã ship hơn 1 triệu dòng code production với zero dòng code do người viết, chỉ với 3-7 kỹ sư.
- Harness mới là moat, không phải model.
TL;DR
Tháng 2 năm 2026, team LangChain công bố một kết quả khiến mọi AI team phải suy nghĩ lại roadmap: coding agent của họ nhảy từ ngoài Top 30 lên Top 5 trên Terminal-Bench 2.0 — tăng 13.7 điểm từ 52.8% lên 66.5%. Model bên dưới không thay đổi. Họ chỉ thay đổi harness.
Kết quả đơn lẻ đó nắm bắt được sự dịch chuyển quan trọng nhất trong AI ứng dụng hiện tại: model không còn là sản phẩm nữa. Harness mới là thứ đó.
Harness Là Gì?
Agent harness là mọi thứ bọc xung quanh LLM để biến nó từ một token generator thành một agent thực sự hoạt động: tool dispatch, context management, sandboxing, planning loop, sub-agent orchestration, eval, observability, và verification logic quyết định khi nào công việc xong.
Mitchell Hashimoto — đồng sáng lập HashiCorp, tác giả của Terraform — đặt ra thuật ngữ này vào tháng 2 năm 2026. Định nghĩa của ông ngắn gọn: mỗi khi agent mắc lỗi, bạn engineer một giải pháp để nó không bao giờ mắc lại lỗi đó nữa. Sửa đó sống trong harness.
Hãy nghĩ về ba lớp chồng lên nhau:
- Prompt Engineering — tối ưu một lần trao đổi đơn. Một cuộc hội thoại, một output.
- Context Engineering — quản lý những gì model có thể thấy trong context window.
- Harness Engineering — thiết kế toàn bộ thế giới agent vận hành trong các autonomous run kéo dài nhiều giờ.
Hai cái đầu định hình chất lượng của một turn. Cái thứ ba định hình liệu agent có thể chạy đáng tin cậy trong nhiều giờ mà không ai theo dõi hay không.
Những Con Số Không Thể Tranh Cãi
- LangChain deepagents-cli: +13.7 điểm, model không đổi. Terminal-Bench 2.0, 89 task bao gồm ML, debugging, và biology. Chỉ thay đổi harness: self-verification loop, tracing, và reasoning sandwich (xhigh-high-xhigh reasoning budget). Chạy ở mức reasoning tối đa chỉ đạt 53.9% do agent timeout. Sandwich được tune đẩy lên 66.5%.
- Stanford IRIS Lab Meta-Harness: 76.4% trên Terminal-Bench 2.0 dùng Claude Opus 4.6. Cải tiến duy nhất: environment bootstrapping — trước khi agent loop bắt đầu, inject snapshot của sandbox (working directory, file listing, available tool, memory) vào initial prompt. Tiết kiệm 2-5 turn khám phá đầu mà agent thường lãng phí cho reconnaissance cơ bản.
- Factory.ai Droid: đánh bại Claude Code của chính Anthropic ở cùng model. Droid với Claude Opus 4.1 đạt 58.8%. Claude Code với cùng Claude Opus đạt 43.2%. Custom harness, cùng model, hơn 15+ điểm.
- Claude Opus 4.6 xếp hạng #33 trong Claude Code. Trong harness bên thứ ba mà nó không được post-train: #5. Model không thay đổi. Cái hộp xung quanh nó thay đổi.
- Team Frontier của OpenAI: 1 triệu dòng code production, 1.500 PR đã merge, zero dòng code do người viết. Ba đến bảy kỹ sư trong năm tháng. Các agent run đơn hoạt động autonomous 6+ giờ. Tốc độ PR tăng từ 3.5 PR/kỹ sư/ngày lên 5-10 sau khi harness trưởng thành.
Khi source code của Claude Code tạm thời bị leak, codebase có khoảng 513.000 dòng TypeScript. Lời gọi model API thực sự? Vài dòng. Mọi thứ còn lại là harness.
Tại Sao Model Không Còn Là Lợi Thế
Hai điều đang xảy ra đồng thời.
Các frontier model đang hội tụ. Tool use, long context, reasoning, structured output — chúng đều làm tốt những thứ này rồi, và giá đang sụp đổ. Andrej Karpathy công khai khai tử thuật ngữ vibe coding vào tháng 2 năm 2026 và đổi tên thực hành này thành agentic engineering, vì viết code không còn là bottleneck nữa.
Trong khi đó, harness compound. Mỗi lần thất bại trở thành một fix vĩnh viễn: một lint rule, một hook, một sub-agent, một context pattern. Cải tiến đó áp dụng cho mọi run trong tương lai với mọi model trong tương lai. Các đợt ra mắt model reset sân chơi về raw intelligence. Đầu tư vào harness thì không.
Điều này tạo ra một bất đối xứng quan trọng ở cấp độ kinh doanh. Tối ưu token spend hay đổi model là chuyện hiển nhiên. Xây một harness ngăn chặn cấu trúc các loại lỗi — đó mới là tài sản compound.
Tại Sao Framework Off-the-Shelf Không Đủ
LangChain, CrewAI, AI SDK — những điểm khởi đầu hữu ích, nhưng mọi sản phẩm agent nghiêm túc đều chạy custom harness trên đó. Claude Code, Cursor, Devin, Factory Droid, Replit Agent, Vercel v0 — tất cả đều có quan điểm riêng, tùy chỉnh, và được tune cho domain cụ thể của chúng.
Lý do rất cụ thể:
- Context window cần tune theo từng model. Team của Cursor dành nhiều tuần tune behavior per-model. Các model khác nhau thích các kiểu chỉnh sửa file khác nhau (FIND_AND_REPLACE vs diff format), cách xử lý path khác nhau, cấu trúc tool call khác nhau.
- Tool cần được thiết kế cho LLM, không phải người dùng. Schema tool phức tạp làm tăng tỷ lệ lỗi theo cấp số nhân. Factory.ai phát hiện thiết kế tool tối giản là bottleneck chính cho việc hoàn thành task end-to-end.
- Quá nhiều tool đẩy agent vào vùng mờ. Mọi mô tả tool không liên quan đều tiêu tốn instruction budget. Nghiên cứu của Chroma xác nhận: hiệu suất model giảm khi độ dài context tăng, ngay cả với các task đơn giản.
- Eval phải gắn với sản phẩm của bạn. Benchmark generic không cho biết agent của bạn có đang tốt hơn ở task cụ thể của bạn hay không.
- Chi phí token tạo ra xung đột cấu trúc. Mỗi tối ưu harness dùng ít token hơn đều ảnh hưởng đến unit economics của các frontier lab. Incentive của bạn không aligned với của họ.
Bạn Có Nên Tự Xây Không?
Có lẽ chưa — và nhận định ban đầu trong bài viết này đúng về điều này.
Nếu đang prototype, dùng Claude Code hay Cursor nguyên gốc và ship. Hầu hết team không có ý tưởng mới về sub-agent orchestration, compaction, hay progressive disclosure đáng để sở hữu toàn bộ harness.
Nếu chuyển sang production trong một domain duy nhất, hãy customize qua extension point trước: AGENTS.md, hook, MCP server, sub-agent definition. Xây eval suite trước khi viết custom code. Đầu tư harness có đòn bẩy cao nhất là back-pressure: test và verification mechanism cho phép agent tự kiểm tra công việc của mình.
Tự xây khi toán học trở nên nghiêm túc:
- Bạn thấy khoảng cách bền vững 15+ điểm giữa stock và custom trên eval của mình
- Kinh tế per-task quan trọng ở quy mô của bạn
- Bạn cần permission và audit trail mà stock harness không cung cấp
- Domain của bạn cần tool chưa tồn tại
Những component đáng sở hữu trước harness: execution infrastructure, custom tool và MCP, và self-improvement trên trajectory (eval suite nắm bắt nơi agent thất bại). Những thứ đó compound bất kể bạn đang chạy harness nào.
Một điều nữa: evaluation loop multi-agent tốn khoảng 20x so với solo agent. Anthropic thử nghiệm harness ba agent (Planner, Generator, Evaluator) vs solo agent khi xây 2D game engine. Solo: 20 phút, , code bị broken. Ba agent: 6 giờ, 00, game hoàn chỉnh có thể chơi được. Toán học chỉ có lợi khi độ tin cậy quan trọng hơn chi phí.
Tương Lai Sẽ Trông Như Thế Nào
Harness có thể sẽ tiến hóa thành service template — các team chọn từ topology phổ biến giống như họ hiện chọn từ infrastructure template. Off-the-shelf harness đang cải thiện nhanh. Các extension point (hook, skill, MCP server, AGENTS.md) đang trưởng thành.
Nhiều harness component hiện tại được thiết kế để bị xóa. Trick giảm context anxiety, forced reset, blind retry — đây là các workaround cho giới hạn model hiện tại. Khi model cải thiện, câu hỏi sau mỗi major release không phải tôi có thể thêm gì? mà là tôi có thể bỏ gì?
Các team chiến thắng năm 2026 không phải là những team có model tốt nhất. Mà là những team đang đầu tư vào scaffolding xung quanh chúng.
Nguồn: LangChain Blog, Latent Space / Ryan Lopopolo (OpenAI), Factory.ai, Stanford IRIS Lab, Milvus Blog, HumanLayer.