// Popular Articles
Browser Harness JS: LLM gọi thẳng 652 CDP methods của Chrome, không abstraction, không helper
browser-use team mở mã Browser Harness JS — cầu nối mỏng nhất có thể từ LLM tới Chrome: 1 WebSocket, 56 domain, 652 method CDP đánh typed, không click()/goto() giả tạo. Triết lý: the protocol is the API.
Meta: coding agent mạnh hơn không phải vì chạy nhiều attempt hơn, mà vì biết ghi nhớ attempt tốt hơn
Paper mới của Meta + CMU/Princeton/AI2 (arxiv 2604.16529) chứng minh: thay vì feed raw log vào selector, hãy nén mỗi rollout thành summary ngắn rồi chạy tournament voting. Claude 4.5 Opus bật từ 70.9% lên 77.6% trên SWE-Bench Verified và 46.9% lên 59.1% trên Terminal-Bench v2.0.
ReasoningBank: Google dạy AI agent học từ cả thành công lẫn thất bại — success rate tăng +34.2%
Google Cloud AI Research vừa công bố ReasoningBank — một memory framework cho LLM agent, chuyển trải nghiệm (bao gồm cả lỗi) thành chiến lược tái sử dụng được. Kết quả: +8.3 điểm success rate trên WebArena, -16% interaction steps, mở ra một chiều scaling mới cho AI agent.
PentestGPT v1.0: AI tự pentest đạt 86.5% benchmark, giá $0.42/target
PentestGPT — framework pentest tự động bằng LLM từ nhóm NTU Singapore — ra v1.0 cuối 2025 với 86.5% success rate trên XBOW benchmark, median cost $0.42 và 3.3 phút/target. Đã đoạt Distinguished Artifact tại USENIX Security 24 và gom 12.7k sao GitHub. AI chính thức bước vào offensive security.