TL;DR

Browserbase vừa ra mắt /autobrowse - một Claude Code skill để AI agent tự học cách hoàn thành tác vụ web qua vòng lặp tự cải thiện. Thay vì viết automation script thủ công, agent chạy tác vụ, đọc trace thất bại, cập nhật chiến lược, rồi thử lại - cho đến khi converge thành một skill tái sử dụng. Benchmark giảm chi phí từ $1.40 xuống $0.24 mỗi run qua 4 vòng lặp.

autobrowse skill chạy trong Claude Code bên cạnh Google Flights

Vấn đề agent web hay gặp phải

Các browser agent hiện tại mắc phải một vấn đề có tên gọi không chính thức là amnesia problem - mỗi lần chạy lại tác vụ, agent phải bắt đầu khám phá website từ đầu. Không có gì được ghi nhớ từ lần trước: không biết API ẩn nào hiệu quả hơn, không nhớ bước nào gây lỗi, không có chiến lược tích lũy.

Hệ quả: chi phí token cao, tốc độ chậm, và kết quả không ổn định. Với trang web phức tạp như Google Flights hay OpenTable, agent có thể mất nhiều lần thử mới tìm được luồng đúng - và lần sau lại thử lại từ đầu.

/autobrowse sinh ra để giải quyết đúng vấn đề này.

Cơ chế: vòng lặp tự cải thiện

Lấy cảm hứng trực tiếp từ Karpathy's autoresearch harness - bộ công cụ cho phép AI chạy 100 thử nghiệm ML overnight mà không cần can thiệp thủ công - autobrowse áp dụng pattern tương tự cho web automation.

Hệ thống hoạt động với hai agent:

  • Inner agent: thực thi tác vụ trên trình duyệt thật, ghi lại toàn bộ trace (quyết định, screenshot, output JSON).

  • Outer agent: đọc trace, xác định điểm thất bại, cập nhật file strategy.md - một scratchpad ghi lại những gì đã biết, rồi cho inner agent chạy lại với chiến lược mới.

Vòng lặp dừng khi tác vụ pass 2/3 lần chạy gần nhất, hoặc khi đạt giới hạn iterations (mặc định 3-5 lần). Kết quả cuối được "graduate" thành một file SKILL.md chứa toàn bộ kiến thức tích lũy: API endpoint ẩn, sequence tương tác tối ưu, các gotcha site-specific.

Sơ đồ vòng lặp autobrowse: Objective - Run - Study - Iterate - Converge - Graduate

Cài đặt và sử dụng nhanh

Cài đặt qua npm trong dự án Claude Code:

npx skills add browserbase/skills --skill autobrowse

Hoặc qua marketplace trong Claude Code:

/plugin marketplace add browserbase/skills

Sau khi cài, gọi skill theo nhiều cách:

# Theo task flag
/autobrowse --task google-flights --iterations 10 --env remote

# Nhiều task song song
/autobrowse --tasks google-flights,amazon-add-to-cart

# Ngôn ngữ tự nhiên
/autobrowse book a 7pm dinner at this restaurant on OpenTable

# URL trực tiếp
/autobrowse https://flights.google.com/

Flag --env remote kích hoạt Browserbase cloud - cần thiết khi site có bot-protection hoặc CAPTCHA.

Benchmark: con số biết nói

Browserbase công bố kết quả benchmark trực tiếp từ thực tế:

Benchmark so sánh Craigslist search không dùng skill vs dùng skill đã graduate

Tác vụ tìm căn hộ Craigslist SF (2BR/2BA, $5,000-$7,000, in-unit laundry, North Beach/Russian Hill):

  • Không dùng skill: $0.22, 71 giây, trả về 0 kết quả khớp (60 kết quả nhiễu toàn thành phố)

  • Dùng skill đã graduate: $0.12, 27 giây, trả về 2 kết quả chính xác với tọa độ lat/lon

Điểm quan trọng hơn cả tốc độ và chi phí: skill đã graduate khám phá được undocumented JSON API (sapi.craigslist.org/web/v8/postings/search/full) và biết cách decode positional arrays với bbox filtering - kiến thức mà run thô bằng WebFetch hoàn toàn không có.

Với form-fill benchmark, chi phí giảm từ $1.40 xuống $0.24 sau 4 vòng lặp - tức giảm 83%.

Khi nào nên dùng - khi nào không

/autobrowse hiệu quả nhất khi:

  • Trang có API ẩn chỉ thấy qua network traffic (không có trong HTML)

  • Nội dung chỉ xuất hiện sau sequence tương tác phức tạp (SPA, wizard flows, multi-step auth)

  • Tác vụ sẽ chạy lặp lại nhiều lần - chi phí graduate được amortize nhanh

  • Site có bot-protection: dùng kết hợp với flag --env remote qua Browserbase cloud

Ngược lại, không cần autobrowse nếu trang là static HTML đơn giản không có JS - dùng skill fetch trực tiếp sẽ nhanh và rẻ hơn nhiều.

Roadmap và hệ sinh thái

/autobrowse là một trong 11 skill trong bộ browserbase/skills (2.7k stars, 166 forks), bao gồm browser, site-debugger, ui-test, cookie-sync và nhiều hơn.

Roadmap công bố gồm ba hướng chính: smarter convergence detection (agent tự lý luận về trace structure thay vì đếm turn đơn thuần), better exploration priors (ưu tiên bb fetch/bb search trước khi mở full browser session), và đặc biệt - apply autobrowse để tự cải thiện chính nó (recursive enhancement).

Nếu thành công, đây sẽ là ví dụ thực tế đầu tiên về agent tự tối ưu workflow của chính mình trong môi trường production.

Via: Browserbase Blog - Autobrowse · skills.sh · GitHub browserbase/skills