Tất cả bài viết

// Popular Articles

#llm-agents

#5642025-12-04

Browser Harness JS: LLM gọi thẳng 652 CDP methods của Chrome, không abstraction, không helper

browser-use team mở mã Browser Harness JS — cầu nối mỏng nhất có thể từ LLM tới Chrome: 1 WebSocket, 56 domain, 652 method CDP đánh typed, không click()/goto() giả tạo. Triết lý: the protocol is the API.

browser-harness-jschrome-devtools-protocolllm-agents

7 phút đọc

#4702025-10-17

Meta: coding agent mạnh hơn không phải vì chạy nhiều attempt hơn, mà vì biết ghi nhớ attempt tốt hơn

Paper mới của Meta + CMU/Princeton/AI2 (arxiv 2604.16529) chứng minh: thay vì feed raw log vào selector, hãy nén mỗi rollout thành summary ngắn rồi chạy tournament voting. Claude 4.5 Opus bật từ 70.9% lên 77.6% trên SWE-Bench Verified và 46.9% lên 59.1% trên Terminal-Bench v2.0.

agentic-codingtest-time-scalingmeta-fair

7 phút đọc

#3742025-08-31

ReasoningBank: Google dạy AI agent học từ cả thành công lẫn thất bại — success rate tăng +34.2%

Google Cloud AI Research vừa công bố ReasoningBank — một memory framework cho LLM agent, chuyển trải nghiệm (bao gồm cả lỗi) thành chiến lược tái sử dụng được. Kết quả: +8.3 điểm success rate trên WebArena, -16% interaction steps, mở ra một chiều scaling mới cho AI agent.

reasoningbankgoogle-researchai-agents

8 phút đọc

#1002025-04-15

PentestGPT v1.0: AI tự pentest đạt 86.5% benchmark, giá $0.42/target

PentestGPT — framework pentest tự động bằng LLM từ nhóm NTU Singapore — ra v1.0 cuối 2025 với 86.5% success rate trên XBOW benchmark, median cost $0.42 và 3.3 phút/target. Đã đoạt Distinguished Artifact tại USENIX Security 24 và gom 12.7k sao GitHub. AI chính thức bước vào offensive security.

pentestgptai-securityoffensive-security

7 phút đọc