vibe working & agentic AI

// Posts

#5782026-05-11

4 Trụ Cột Agent Bền Vững - Phần 1: 88% AI Agent Chết Trong Production - Vấn Đề Không Nằm Ở Model

88% dự án agent không bao giờ ra production theo IDC 2026. MIT đo 95% tỷ lệ thất bại. Chỉ 5% trong số 1.837 developer được khảo sát có agent thật sự chạy production. Lý do không phải model kém - mà là kỹ thuật xung quanh model. Bài này đặt tên cho vấn đề: engineering deficit.

ai-agentagentic-aiengineering

5 phút đọc

#5772026-05-10

6 Bệnh Thần Kinh của AI Agent - P2: Confabulation, Disinhibition và Anosognosia

Confabulation không phải hallucination: khi retrieval thất bại, agent bịa nguồn trông như thật thay vì thừa nhận không biết. Nghiên cứu HalluCitation 2026 tìm thấy gần 300 bài học thuật ACL/EMNLP có ít nhất 1 tài liệu tham khảo bịa đặt. Disinhibition là phanh control plane hỏng - agent đọc email phishing và thực sự gửi file đi. Anosognosia là bệnh nguy hiểm nhất: sai mà không biết mình sai.

ai-agentengineeringconfabulation

7 phút đọc

#5762026-05-10

6 Bệnh Thần Kinh của AI Agent - P1: Source Amnesia, Phantom Limb và Locked-in Syndrome

Khi AI agent mắc lỗi, bạn thường đổ lỗi cho model - nhưng vấn đề thực sự thường nằm ở runtime. Model cho agent "não", còn runtime cho nó "thân thể": mắt, tay, bộ nhớ, phanh, cơ chế tự kiểm tra. Bài này phân tích 3 trong 6 bệnh thần kinh đã được ánh xạ từ y học sang hành vi agent: Source Amnesia, Phantom Limb State và Locked-in Syndrome. Model mạnh hơn không chữa được những bệnh này.

ai-agentengineeringdebugging

6 phút đọc

#5752026-05-10

birdclaw - Workspace Twitter cục bộ, dữ liệu nằm trong tay bạn

birdclaw là CLI + web app lưu toàn bộ tweets, DMs, likes, bookmarks vào SQLite cục bộ - không cloud, không tracking. Project đang active với 659 stars trên GitHub, phiên bản 0.6.0 vừa release. AI inbox dùng gpt-5.5 để score mentions và DMs theo độ quan trọng. MIT license, cài qua Homebrew một lệnh.

developer-toolstwitteropen-source

5 phút đọc

#5742026-05-10

Harness Engineering (Phần 2): 5 Chiều Thiết Kế Biến AI Agent Từ Vô Dụng Thành Production-Ready

Vercel xóa 80% tools của agent: success rate tăng từ 80% lên 100%, nhanh hơn 3.5 lần, giảm 37% token. Anthropic dùng Ralph Loop để AI làm việc qua nhiều ngày mà không mất trí nhớ. Đây là bản thiết kế chi tiết 5 chiều cốt lõi của Harness Engineering - từ Context Management đến Architectural Guardrails.

harness-engineeringai-agentcontext-management

8 phút đọc

#5732026-05-10

Claude Code không phải ChatGPT - P1: mindset đồng nghiệp

Claude Code dùng sai chỉ là ChatGPT xịn hơn, dùng đúng là kỹ sư bạn điều phối được. Sự khác biệt nằm ở cách bạn brief task: 4 yếu tố mục tiêu, yêu cầu chi tiết, trạng thái dự án và tiêu chí nghiệm thu quyết định 80% chất lượng output. CLAUDE.md là hợp đồng hành vi cứng - không phải gợi ý, phải giữ dưới 200 dòng và chỉ viết hard constraints.

claude-codeai-workflowdeveloper-tools

6 phút đọc

#5722026-05-10

Harness Engineering (Phần 6): Khi Scaffolding Quan Trọng Hơn Model

Claude Opus 4.6 xếp hạng #33 trên Terminal Bench 2.0 trong native harness, nhưng vọt lên #5 chỉ bằng cách thay đổi cấu hình - không đụng vào model. ~98.4% codebase của Claude Code là infrastructure, chỉ 1.6% là AI decision logic. Harness engineering - discipline thiết kế scaffolding xung quanh model - đang trở thành kỹ năng cốt lõi của agentic era.

harness-engineeringcoding-agentsai-engineering

7 phút đọc

#5712026-05-10

DFlash: Block Diffusion giúp LLM suy diễn nhanh hơn 8.5x mà không mất chất lượng

DFlash đạt 415.7 tokens/sec trên Qwen3-8B, nhanh hơn 8.5x so với baseline 48.5 tokens/sec mà hoàn toàn lossless. Block diffusion model sinh toàn bộ token block trong 1 forward pass duy nhất - chi phí draft không đổi dù suy đoán bao nhiêu token. Nhanh hơn 2.5x so với EAGLE-3, SOTA trước đó. MIT license, đã hỗ trợ vLLM v0.20.1+, SGLang, Transformers với 18 model phổ biến.

dflashspeculative-decodingllm-inference

6 phút đọc

#5702026-05-10

Claude Managed Agents: xây agent AI trong vài giờ thay vì vài tháng

Anthropic ra mắt Claude Managed Agents ngày 8/4/2026 - infrastructure layer cho phép triển khai agent tự động trong vài ngày, không cần tự xây sandbox hay quản lý credential. Tính năng Dreaming giúp Harvey Legal tăng completion rate lên 6x mà không thay đổi model. Multiagent Orchestration (công bố 6/5/2026) cho phép tối đa 20 agent chuyên biệt chạy song song. Giá $0.08/session-hour cộng token rate thông thường.

claudeanthropicai-agents

7 phút đọc

#5692026-05-10

HTML là định dạng mới của Markdown: khi AI agent cần output giàu hơn

Thariq Shihipar, kỹ sư tại Anthropic Claude Code team, lập luận rằng HTML nên thay thế Markdown làm định dạng output mặc định cho AI agent. Bài viết viral với 15.000+ lượt thích trên X trong một ngày. Với Claude có context window 200K-1M token, lợi thế tiết kiệm token của Markdown không còn ý nghĩa. HTML cho phép nhúng SVG, widget tương tác, navigation nội trang - những thứ Markdown không thể làm được.

claude-codehtmlmarkdown

6 phút đọc