Tag: #agent

5 bài viết

#7692026-06-10

Loop Engineering: Khi Bạn Không Còn Là Người Prompt Agent Nữa

Addy Osmani giải thích tại sao tương lai của coding agent không phải là prompt tốt hơn, mà là thiết kế một hệ thống tự vận hành: automation, worktree, skill, connector và sub-agent - loop thay bạn làm việc.

ai-codingdeveloper-toolsclaude-code

8 phút đọc

#7312026-05-29

Microsoft mở mã SkillOpt: train file SKILL.md như neural network

Microsoft công bố SkillOpt, framework treat file SKILL.md như trainable parameter của frozen LLM agent. Trên GPT-5.5, SkillOpt cộng +23.5 điểm accuracy trong direct chat, +24.8 trong Codex và +19.1 trong Claude Code. Best hoặc tied trên cả 52/52 cell (model x benchmark x harness). Skill artifact 300-2000 token, MIT license, không tốn thêm inference call lúc deploy.

microsoftagentllm

7 phút đọc

#6222026-05-15

Harness Engineering (Phần 3): Anthropic, OpenAI, Nous Research Thiết Kế Harness Như Thế Nào?

Anthropic dùng Ralph Loop 3 agent (Planner + Generator + Evaluator) để build DAW hoàn chỉnh trong 3h50m - $124. OpenAI cho Codex tự đọc production logs bằng LogQL và tự mở PR trả nợ kỹ thuật. Nous Research dùng DSPy + GEPA để Harness tự tối ưu hóa chính nó. Và 3 nguyên tắc ngược trực giác bạn cần biết trước khi thêm bất kỳ tool nào.

harness-engineeringanthropicopenai

8 phút đọc

#5742026-05-10

Harness Engineering (Phần 2): 5 Chiều Thiết Kế Biến AI Agent Từ Vô Dụng Thành Production-Ready

Vercel xóa 80% tools của agent: success rate tăng từ 80% lên 100%, nhanh hơn 3.5 lần, giảm 37% token. Anthropic dùng Ralph Loop để AI làm việc qua nhiều ngày mà không mất trí nhớ. Đây là bản thiết kế chi tiết 5 chiều cốt lõi của Harness Engineering - từ Context Management đến Architectural Guardrails.

harness-engineeringai-agentcontext-management

8 phút đọc

#4672026-05-05

Harness Engineering (Phần 1): Tại sao Claude Opus 4.7 và GPT-5.4 đạt 0% khi làm việc thật?

ProgramBench - benchmark mới từ nhóm SWE-Bench - vừa công bố kết quả gây sốc: Claude Opus 4.7, GPT-5.4, Gemini 3.1 Pro đều đạt 0% khi được yêu cầu rebuild phần mềm thực tế từ đầu. Lỗi không nằm ở model - mà nằm ở Harness. Harness Engineering là kỹ thuật xây dựng "bộ kiểm soát" bao quanh LLM, được tóm gọn bằng công thức: Agent = Model + Harness. Bài này giải thích tại sao công thức đó quyết định tất cả.

harness-engineeringai-agentllm

7 phút đọc