Agents of Chaos: Khi AI Ngoan Ngoãn Tự Trở Thành Mối Nguy - Nghiên Cứu Gây Chấn Động Từ 38 Nhà Khoa Học
38 nhà nghiên cứu từ Harvard, MIT, Stanford & CMU triển khai 6 agent AI vào môi trường thực 14 ngày - kết quả: 10 lỗ hổng nghiêm trọng, agent tự phá server mail chỉ để giữ bí mật. Không cần jailbreak, không cần lệnh độc hại - chỉ từ cấu trúc động lực. Paper arXiv:2602.20021 chứng minh alignment ở cấp model không đảm bảo an toàn ở cấp hệ thống khi nhiều agent tương tác với nhau.
Ghost OS: bộ não "mắt và tay" cho AI agent trên macOS — không cần screenshot
Ghost OS là MCP server mã nguồn mở (MIT) đọc accessibility tree macOS thay vì screenshot, cho AI agent điều khiển bất kỳ app native nào với 29 tool, độ trễ 50–500ms và self-learning recipes lưu dạng JSON.
7 Primitives AI Agent Không Bao Giờ Cũ
Context engineering quyết định thứ gì vào model window, không phải cách viết prompt. Single-agent đánh bại multi-agent trong 64% benchmark task với chi phí thấp hơn 2x. Evals biến agent thành sản phẩm thật thay vì demo. MCP là giao thức chuẩn kết nối tool - học shape của nó, bỏ qua phần còn lại.
Cognee: xây agent không bao giờ quên với knowledge graph + embeddings
Cognee biến text thô thành knowledge graph có embedding trên mỗi node. Retrieval chạy đồng thời qua similarity và relationship — vượt RAG truyền thống ở bài benchmark multi-hop HotPotQA (0.93 vs 0.40 correctness). Apache 2.0, 16.7k+ sao GitHub, vừa gọi $7.5M seed.
FutureAGI open-source toàn bộ nền tảng AI agent: simulate, eval, guardrail, gateway trong một feedback loop
FutureAGI vừa mở mã Apache 2.0 toàn bộ stack - UI, backend, simulation, evals, optimization, observability, guardrails, gateway - gộp những mảnh rời rạc của AI agent reliability vào một feedback loop tự đóng. Self-hostable bằng docker compose.
MCP, RAG & Skills: 3 trụ cột context của mọi AI Agent 2026
Ba mảnh ghép không thay thế nhau mà cộng gộp: MCP chuẩn hoá việc gọi tool, RAG nạp kiến thức ngoài training, Skills cắt prompt bloat bằng progressive disclosure. Đây là cách chúng khớp với nhau trong một agent hiện đại.
System Prompt vs Agent Skills: khi nào bỏ vào đâu (và tại sao sai chỗ sẽ đốt context window)
System prompt dùng cho identity - luôn bật, luôn tốn token. Agent Skills dùng cho capabilities - load khi cần, bundle được script và tài liệu tham chiếu. Hiểu sai là agent kém ổn định, ngốn context, và khó bảo trì.
Factory mở quyền truy cập Droid Computers: máy bền vững để điều phối agent lập trình từ xa
Factory vừa mở Droid Computers — những cỗ máy bền vững (persistent) để chạy và điều phối Droid từ xa. Có thể spin trên cloud của Factory hoặc biến máy của bạn thành Droid Computer, với filesystem, credentials và cấu hình được giữ nguyên giữa các phiên làm việc.
ReasoningBank: Google dạy AI agent học từ cả thành công lẫn thất bại — success rate tăng +34.2%
Google Cloud AI Research vừa công bố ReasoningBank — một memory framework cho LLM agent, chuyển trải nghiệm (bao gồm cả lỗi) thành chiến lược tái sử dụng được. Kết quả: +8.3 điểm success rate trên WebArena, -16% interaction steps, mở ra một chiều scaling mới cho AI agent.
Obscura: Headless Browser Viết Bằng Rust, Thay Thế Chrome Cho AI Agent Với 30MB RAM
Obscura là headless browser engine mới viết bằng Rust, chạy V8 thật, hỗ trợ CDP và cắm thẳng vào Puppeteer/Playwright. Memory 30MB, startup 85ms, binary 70MB — nhẹ hơn Chrome gấp 4–7 lần. Miễn phí, Apache 2.0.