Firecrawl：LLM 网页抓取与提取 API 工具

摘要

1) 一句话总结 Firecrawl 是一个专为 AI 提取 Web 数据的 API 工具，能够抓取、爬取网站并将其转换为适合大语言模型（LLM）使用的 Markdown 或结构化数据。

2) 关键要点

核心功能：提供 Scrape（单页抓取）、Search（网络搜索提取）、Agent（自动化数据收集）、Crawl（全站爬取）和 Map（全站 URL 发现）五大核心 API。
输出格式：支持将网页内容转换为干净的 Markdown、结构化 JSON、HTML 以及网页截图。
高级处理能力：内置处理代理、JavaScript 渲染和动态内容的能力；支持在提取数据前执行点击、滚动、输入和等待等交互动作（Actions）。
多媒体与定制化：支持从 PDF、DOCX 和图片中自动提取文本；允许自定义抓取深度、绕过登录墙（Auth walls）以及排除特定标签。
批量与监控：支持异步批量处理数千个 URL，并具备网页内容变更追踪功能。
项目数据：主要使用 TypeScript 开发，采用 GNU AGPL v3.0 开源协议，GitHub Stars 超过 8.4 万，Forks 超过 6100 个。
最新状态：项目最新发布版本为 v2.8.0。

3) 风险/不足

🔥 The Web Data API for AI - Turn entire websites into LLM-ready markdown or structured data