4 Trụ Cột Agent Bền Vững - Phần 2: Building và Memory
Tool contract là một chiều trừ khi bạn enforce ngược lại - bug Stripe thực tế: model pass email vào customer_id, agent thông báo khách đang trả tiền không tìm thấy tài khoản. State poisoning hiện diện trong 73% production AI deployments. Phần 2 của series về engineering deficit.
4 Trụ Cột Agent Bền Vững - Phần 1: 88% AI Agent Chết Trong Production - Vấn Đề Không Nằm Ở Model
88% dự án agent không bao giờ ra production theo IDC 2026. MIT đo 95% tỷ lệ thất bại. Chỉ 5% trong số 1.837 developer được khảo sát có agent thật sự chạy production. Lý do không phải model kém - mà là kỹ thuật xung quanh model. Bài này đặt tên cho vấn đề: engineering deficit.
6 Bệnh Thần Kinh của AI Agent - P2: Confabulation, Disinhibition và Anosognosia
Confabulation không phải hallucination: khi retrieval thất bại, agent bịa nguồn trông như thật thay vì thừa nhận không biết. Nghiên cứu HalluCitation 2026 tìm thấy gần 300 bài học thuật ACL/EMNLP có ít nhất 1 tài liệu tham khảo bịa đặt. Disinhibition là phanh control plane hỏng - agent đọc email phishing và thực sự gửi file đi. Anosognosia là bệnh nguy hiểm nhất: sai mà không biết mình sai.
6 Bệnh Thần Kinh của AI Agent - P1: Source Amnesia, Phantom Limb và Locked-in Syndrome
Khi AI agent mắc lỗi, bạn thường đổ lỗi cho model - nhưng vấn đề thực sự thường nằm ở runtime. Model cho agent "não", còn runtime cho nó "thân thể": mắt, tay, bộ nhớ, phanh, cơ chế tự kiểm tra. Bài này phân tích 3 trong 6 bệnh thần kinh đã được ánh xạ từ y học sang hành vi agent: Source Amnesia, Phantom Limb State và Locked-in Syndrome. Model mạnh hơn không chữa được những bệnh này.
birdclaw - Workspace Twitter cục bộ, dữ liệu nằm trong tay bạn
birdclaw là CLI + web app lưu toàn bộ tweets, DMs, likes, bookmarks vào SQLite cục bộ - không cloud, không tracking. Project đang active với 659 stars trên GitHub, phiên bản 0.6.0 vừa release. AI inbox dùng gpt-5.5 để score mentions và DMs theo độ quan trọng. MIT license, cài qua Homebrew một lệnh.
Harness Engineering (Phần 2): 5 Chiều Thiết Kế Biến AI Agent Từ Vô Dụng Thành Production-Ready
Vercel xóa 80% tools của agent: success rate tăng từ 80% lên 100%, nhanh hơn 3.5 lần, giảm 37% token. Anthropic dùng Ralph Loop để AI làm việc qua nhiều ngày mà không mất trí nhớ. Đây là bản thiết kế chi tiết 5 chiều cốt lõi của Harness Engineering - từ Context Management đến Architectural Guardrails.
Claude Code không phải ChatGPT - P1: mindset đồng nghiệp
Claude Code dùng sai chỉ là ChatGPT xịn hơn, dùng đúng là kỹ sư bạn điều phối được. Sự khác biệt nằm ở cách bạn brief task: 4 yếu tố mục tiêu, yêu cầu chi tiết, trạng thái dự án và tiêu chí nghiệm thu quyết định 80% chất lượng output. CLAUDE.md là hợp đồng hành vi cứng - không phải gợi ý, phải giữ dưới 200 dòng và chỉ viết hard constraints.
Harness Engineering (Phần 6): Khi Scaffolding Quan Trọng Hơn Model
Claude Opus 4.6 xếp hạng #33 trên Terminal Bench 2.0 trong native harness, nhưng vọt lên #5 chỉ bằng cách thay đổi cấu hình - không đụng vào model. ~98.4% codebase của Claude Code là infrastructure, chỉ 1.6% là AI decision logic. Harness engineering - discipline thiết kế scaffolding xung quanh model - đang trở thành kỹ năng cốt lõi của agentic era.
DFlash: Block Diffusion giúp LLM suy diễn nhanh hơn 8.5x mà không mất chất lượng
DFlash đạt 415.7 tokens/sec trên Qwen3-8B, nhanh hơn 8.5x so với baseline 48.5 tokens/sec mà hoàn toàn lossless. Block diffusion model sinh toàn bộ token block trong 1 forward pass duy nhất - chi phí draft không đổi dù suy đoán bao nhiêu token. Nhanh hơn 2.5x so với EAGLE-3, SOTA trước đó. MIT license, đã hỗ trợ vLLM v0.20.1+, SGLang, Transformers với 18 model phổ biến.
Claude Managed Agents: xây agent AI trong vài giờ thay vì vài tháng
Anthropic ra mắt Claude Managed Agents ngày 8/4/2026 - infrastructure layer cho phép triển khai agent tự động trong vài ngày, không cần tự xây sandbox hay quản lý credential. Tính năng Dreaming giúp Harvey Legal tăng completion rate lên 6x mà không thay đổi model. Multiagent Orchestration (công bố 6/5/2026) cho phép tối đa 20 agent chuyên biệt chạy song song. Giá $0.08/session-hour cộng token rate thông thường.