- Firecrawl vừa mở mã nguồn web-agent — framework dựng autonomous web research agent với cơ chế Plan-Act, parallel sub-agents và model-agnostic (recent builds default Claude Opus 4.7).
- Một lệnh scaffold ra project đủ streaming UI, API hoặc library template.
TL;DR
Firecrawl (16/04/2026) open-source firecrawl/web-agent — framework nhẹ để dev build autonomous web research agent chạy vòng lặp search → scrape → interact trực tiếp trên web thật. Chỉ một lệnh firecrawl create agent là có ngay project đủ với 3 lựa chọn template: Next.js (streaming UI), Express (API server), hoặc library thuần. Cơ chế Plan-Act dựa trên LangChain Deep Agents, spawn sub-agent song song xử lý nhiều site, và hoàn toàn model-agnostic — cắm OpenAI, Anthropic (recent builds default Claude Opus 4.7), hoặc model self-hosted đều được. License MIT.
What's new
Đây không phải port của Firecrawl hosted /agent. Theo blog launch của Eric Ciarla (co-founder), web-agent là "lighter foundation designed to be forked and extended" — thiết kế cho dev muốn kiểm soát toàn bộ agent thay vì dùng hosted black-box.
- 3 template scaffold:
next(chat UI + streaming SSE),express(API-only server),library(plain TS module). - 1 lệnh là xong:
npx -y firecrawl-cli@latest init -y --browser→firecrawl create agent -t next|express|library. - Ships sẵn 3 skill mẫu (markdown
SKILL.md): e-commerce pagination, multi-source reconciliation, consistent extraction schema. - Recent builds default provider là Anthropic Claude Opus 4.7 — user vẫn đổi được qua Vercel AI SDK.
Why it matters
Từ trước đến giờ, build agent cào web autonomous là bài phải ráp 4–5 mảnh: browser automation, scraper, retry logic, planner, model router. Web-agent gom sẵn primitives Firecrawl (Search / Scrape / Interact) với pattern Deep Agents, cắt phần lớn code keo. Quan trọng hơn, vì model-agnostic, team có thể chạy Opus 4.7 cho task khó (plan, reconcile) và swap sang model rẻ cho bước extract — tiết kiệm token mà không cần viết adapter.
Technical facts
- Harness: LangChain Deep Agents cung cấp plan-act-observe loop, parallel sub-agent spawning qua
tasktool, on-demand skill loading qua skills middleware. - Built-in tools: Search (discover URL), Scrape (extract structured content), Interact (browser automation cho JS-heavy page — còn beta), Bash.
- Skills: markdown playbook
SKILL.mdauto-discover khi bỏ vào project folder. - Sub-agents: parallel worker với session isolated — ví dụ spawn 10 subagent cào 10 pricing page cùng lúc, merge kết quả.
- Output: structured JSON, ready cho pipeline downstream.
- Tech stack: TypeScript (~32%), dependencies chính là Firecrawl SDK,
firecrawl-aisdk, LangChain Deep Agents, Vercel AI SDK. - Community lúc launch: 565 stars, 67 forks, 538 commits, MIT license.
Comparison
| Option | Hosted /agent | web-agent OSS | open-agent-builder |
|---|---|---|---|
| Hình thái | Hosted SaaS | Code-first framework | Visual drag-and-drop |
| Model | Spark 1 (Firecrawl) | Bất kỳ qua AI SDK | Hạn chế |
| Tùy biến loop | Không | Plan-Act, fork được | Theo node builder |
| Parallel subagent | Có sẵn | Có, dev kiểm soát | Không rõ |
| API key Firecrawl | Cần | Cần | Cần |
So với CrewAI hoặc LangGraph thuần, web-agent gắn chặt với primitives Firecrawl (Search/Scrape/Interact) — ít config hơn, đánh đổi bằng việc phụ thuộc Firecrawl API key.
Use cases
- Competitive pricing monitor: subagent cào song song N pricing page đối thủ, trả JSON schema đồng nhất.
- Lead enrichment: input danh sách công ty → tự tìm site, scrape contact / tech-stack / funding.
- Doc / policy change detection: theo dõi release notes, ToS, pricing page theo thời gian.
- E-commerce catalog extraction: dùng skill pagination sẵn để cào catalog đa trang.
- RAG real-time data: feed web data tươi cho pipeline RAG.
Hưởng lợi nhiều nhất: indie dev, growth team, research analyst, sales ops — nhóm muốn web-data agent tuỳ biến mà không phải viết từ đầu.
Limitations & pricing
- Cần Firecrawl API key — không có option self-host hoàn toàn cho Search/Scrape/Interact.
- Job phức tạp (nhiều Plan-Act + subagent) tốn token — cần monitor cost, đặc biệt khi default Opus 4.7.
- Tool
interact(browser automation) đang beta, API có thể đổi. - Repo mới, community nhỏ (~565 ⭐) — ecosystem skill/plugin chưa phong phú.
- License MIT, fork/commercial thoải mái.
- Pricing đi theo Firecrawl API tier chuẩn (không có tier riêng cho web-agent).
What's next
Roadmap chưa công bố mốc cụ thể. Hướng ngụ ý: mở rộng skill catalog, đưa interact khỏi beta, thêm template cho framework khác (Hono, FastAPI?). Hosted /agent (Spark 1) vẫn chạy song song tại firecrawl.dev/app/agent cho team không muốn tự vận hành.
Nếu đang build data agent, đây là chỗ thực tế để bắt đầu thay vì ráp từ rỗng — fork repo, bỏ SKILL.md riêng, swap model theo budget, và tận dụng pattern parallel subagent thay vì viết queue tay.
Một vài câu hỏi đáng theo dõi trong 1–2 tháng tới: (1) liệu tool interact có GA không và API final trông ra sao, (2) có thêm adapter cho framework Python (FastAPI) để team Python không phải wrap Node, (3) skill catalog cộng đồng có mở rộng đủ nhanh để web-agent giữ lợi thế so với CrewAI / LangGraph hay không. Hiện tại điểm cộng lớn nhất là time-to-first-agent chỉ vài phút — đủ tốt để thử trước khi tự code toàn bộ stack.
Nguồn: github.com/firecrawl/web-agent, Firecrawl blog, @WesRoth.

