- Firecrawl vừa mở mã nguồn web-agent — bộ khung nhẹ dựa trên LangChain Deep Agents, ship sẵn template Next.js và Express, cho phép dev fork, swap model và deploy agent tự cào web trả về JSON có cấu trúc.
TL;DR
Ngày 16/04/2026, Firecrawl release open-source firecrawl/web-agent — framework nhẹ để build autonomous web research agent. Harness dùng Deep Agents của LangChain (plan-act loop, parallel subagents, on-demand SKILL.md), tool dùng bộ Search / Scrape / Interact / Bash của Firecrawl, kèm 3 template out-of-the-box: Next.js, Express, library. MIT license, cần Firecrawl API key để chạy. Đây KHÔNG phải port của hosted /agent (chạy Spark 1) — nó là foundation được thiết kế để fork, swap model, thêm skill và tự deploy.

What's new
Trước nay Firecrawl nổi tiếng với API scrape/search cho AI và một hosted agent tại firecrawl.dev/app/agent. Problem: hosted chạy trên hạ tầng của họ, model bị khoá (Spark 1), muốn custom sâu là chịu. Bản open-source này gỡ khoá đó — bạn fork repo, thay model qua Vercel AI SDK, thêm SKILL.md riêng, và deploy lên Vercel / Fly / VPS tuỳ ý.
Điểm khác biệt so với các dự án trước của Firecrawl:
- firecrawl/firecrawl — API scrape gốc, không có agent loop.
- open-agent-builder — visual drag-and-drop, hướng no-code.
- web-agent (mới) — code-first framework cho dev muốn build agent tự chạy với loop plan-act-observe.
Kiến trúc bên trong
Bộ phận cốt lõi:
- Harness — Deep Agents (LangChain): cung cấp vòng lặp plan → act → observe → repeat, spawning parallel subagent qua
tasktool, và auto-discoverSKILL.mdqua skills middleware. - Tools:
search(discover page),scrape(extract content có cấu trúc),interact(browser automation cho page JS-heavy, đang beta),bash. - Skills: markdown playbook được load on-demand. 3 skill mẫu ship theo repo: e-commerce pagination, multi-source reconciliation, consistent extraction schema.
- Subagents: parallel worker với session cô lập — hợp cho job quét nhiều đối thủ hoặc enrich danh sách lead dài.
- Output: structured JSON, có schema do bạn định nghĩa.
Technical facts
| Property | Value |
|---|---|
| Harness | Deep Agents (LangChain) |
| Core SDK | Firecrawl SDK + firecrawl-aisdk + Vercel AI SDK |
| Language | TypeScript (31.8% repo) |
| Templates ship sẵn | Next.js · Express · library |
| Skills mẫu | 3 (e-commerce, reconciliation, extraction schema) |
| License | MIT |
| Community (ngày release) | 565 ⭐ · 67 forks · 538 commits |
| Install | npx -y firecrawl-cli@latest init -y --browser |
Scaffold một agent mới chỉ cần:
firecrawl create agent -t next
# hoặc
firecrawl create agent -t express
# hoặc library nhúng vào script sẵn có
firecrawl create agent -t librarySo sánh với lựa chọn khác
| Option | Strength | Trade-off |
|---|---|---|
Firecrawl hosted /agent | Zero-config, chạy Spark 1 tối ưu research | Không custom model, không self-deploy |
| open-agent-builder (Firecrawl) | Visual workflow, không cần code | Kém linh hoạt cho logic phức tạp |
| web-agent (open-source) | Fork tự do, swap model, thêm skill, deploy mọi nơi | Phải code TS, vẫn cần Firecrawl API key |
| CrewAI / LangGraph thuần | Linh hoạt tối đa, agnostic | Phải tự wire tool Search/Scrape/Interact |
Use cases thực tế
- Competitive pricing monitor: spawn nhiều subagent quét pricing page đối thủ song song, trả về JSON đồng nhất schema.
- Lead enrichment: input danh sách công ty → agent tự tìm site, scrape contact / tech-stack / funding → export CSV-ready.
- Document change detection: theo dõi docs, policy, release note thay đổi theo thời gian.
- E-commerce catalog extraction: tận dụng skill pagination có sẵn để quét catalog đa trang.
- RAG real-time: làm nguồn dữ liệu web tươi cho pipeline RAG.
Người hưởng lợi nhiều nhất: indie dev, growth team, research analyst và sales ops team muốn có web data agent tuỳ biến mà không phải viết loop plan-act từ đầu.
Limitations & pricing
- Vẫn cần Firecrawl API key — không có option self-host hoàn toàn cho Search/Scrape/Interact. Pricing theo tier API chuẩn của Firecrawl.
- Job phức tạp đốt nhiều token: plan-act loop + subagents chạy nhiều step, chi phí LLM dễ phình.
- Tool
interact(browser automation) vẫn ở beta, API có thể thay đổi. - Repo còn mới (565 ⭐ lúc release), ecosystem skill / plugin cộng đồng chưa nhiều.
What's next
Firecrawl chưa công bố mốc roadmap cụ thể, nhưng hướng phát triển có thể đoán được khá rõ từ cấu trúc repo: mở rộng skill catalog (có thể dạng marketplace cho SKILL.md để cộng đồng đóng góp playbook cho ngành thương mại điện tử, SaaS pricing, job board, local SEO…), ổn định interact ra khỏi beta để browser automation tin cậy hơn khi chạy production, và thêm template cho framework khác như Hono, FastAPI, NestJS để phủ thêm cộng đồng Python và edge runtime.
Với MIT license + harness Deep Agents chuẩn của LangChain + nền tảng Firecrawl đã có sẵn API primitive, repo này có cửa để trở thành starter mặc định cho ai muốn build web research agent trong 2026 — vị trí tương tự create-next-app dành cho web app. Điểm cần theo dõi là token economics: khi agent loop chạy sâu với nhiều subagent, chi phí model có thể vượt chi phí Firecrawl API — chọn model rẻ hơn cho subagent phụ (Haiku, Gemini Flash) qua Vercel AI SDK là tối ưu đáng làm sớm.
Thử ngay: github.com/firecrawl/web-agent. Scaffold 1 dòng, sửa SKILL.md cho use case của bạn, deploy lên Vercel bằng template Next.js, và bạn đã có web research agent chạy production.
Nguồn: firecrawl.dev/blog, firecrawl.dev/agent, GitHub repo.

