Firecrawl API

最新推荐文章于 2025-04-08 14:09:00 发布

CCSBRIDGE

最新推荐文章于 2025-04-08 14:09:00 发布

阅读量1.2k

点赞数 21

分类专栏：人工智能文章标签：人工智能

本文链接：https://blog.csdn.net/weixin_47420447/article/details/146197837

版权

人工智能专栏收录该内容

23 篇文章

订阅专栏

Firecrawl API 介绍

1. 概述

Firecrawl 是一个 开源的 Web 数据抓取和爬取 API，旨在 将网站内容转换为 LLM 友好的数据，帮助 AI 应用获取 结构化、干净、可用的数据。该 API 处理 动态内容、JavaScript 加载、速率限制 等复杂问题，使开发者可以更轻松地集成 Web 数据到 AI 应用中。

📌 官网：Firecrawl

2. 主要特点

✅ 强大的 Web 数据抓取

Scrape（抓取）： 从网站提取 LLM 友好的数据，如 Markdown、JSON、截图等。
Crawl（爬取）： 自动遍历网站的所有子页面，即使没有 sitemap 也能获取完整数据。
Extract（结构化提取）： 根据提示（Prompt）提取特定格式的数据，如表格、标题、列表等。

✅ 适用于 AI 和数据分析

数据清理优化：自动去除广告、无用 HTML 代码，仅保留干净的文本数据。
开源 & 可自托管：可通过 Docker、Helm Charts 进行自托管，确保数据隐私和安全。
智能解析：能够解析 PDF、DOCX 等文件并转换为文本。

✅ 高效 & 可靠

支持 JavaScript 渲染：可处理动态网页（SPA、React、Vue、Angular）。
代理 & 速率限制处理：自动处理 IP 代理轮换，避免封禁。
智能等待：自动等待网页内容完全加载，提高抓取质量。

✅ 无缝集成

支持 LlamaIndex、Langchain、Dify、Flowise、CrewAI、Camel AI。
提供 Python、Node.js、cURL SDK，快速集成到 AI 应用。

3. 适用场景

Firecrawl API 适用于各种需要 从 Web 获取数据 的场景，特别是在 AI 领域：

LLM 训练 & RAG（检索增强生成）
- 预处理网络数据，将其转换为 适合 LLM 训练的格式（JSON、Markdown）。
- 结合 LlamaIndex 和 Langchain 进行 语义搜索和 AI 知识库构建。
智能内容聚合
- 自动抓取新闻、博客、论坛、社交媒体内容，进行 市场分析、舆情监测。
- 可用于财经、科技、医疗、法律等行业的 数据整理。
自动化 Web 数据提取
- 监控竞争对手网站，自动提取 定价、产品信息，进行市场分析。
- 从电子商务网站抓取商品描述、评论、库存等信息。
API 数据补充
- 在 没有官方 API 的情况下，使用 Firecrawl 获取网页上的结构化数据。
- 适用于数据科学、BI 分析、SEO 优化等应用。

4. API 用法

Firecrawl 提供了多种 SDK，可通过 Python、Node.js 或 cURL 直接调用 API。

📌 4.1 快速入门

（1）安装 Firecrawl SDK

Node.js:

npm install @mendable/firecrawl-js

Python:

pip install firecrawl-ai

（2）初始化 API

import FirecrawlApp from '@mendable/firecrawl-js';

const app = new FirecrawlApp({ apiKey: "fc-YOUR_API_KEY" });

// 抓取一个网站
await app.scrapeUrl('https://example.com');

（3）获取结构化数据

{
  "url": "https://example.com",
  "markdown": "# Getting Started...",
  "json": { "title": "Guide", "docs": ... },
  "screenshot": "https://example.com/hero.png"
}

📌 4.2 高级用法

（1）使用 /extract 提取特定数据

Firecrawl 允许你使用 Prompt 提取结构化数据，如表格、列表、标题等。

const response = await app.extract({
    url: "https://example.com",
    prompt: "提取所有产品信息，包括名称、价格、描述"
});

返回的 JSON 数据：

{
  "products": [
    { "name": "iPhone 15", "price": "$799", "description": "最新款 iPhone" },
    { "name": "Samsung S23", "price": "$699", "description": "安卓旗舰手机" }
  ]
}

（2）遍历整个网站

const response = await app.crawl("https://example.com", {
    maxDepth: 3, // 爬取深度
    followLinks: true // 是否跟随链接
});

5. 价格方案

Firecrawl 提供 免费计划，适合测试，同时支持 按量计费和订阅制：

计划	价格	包含额度	API 速率限制
免费	$0	500 页面	10/scrape/min
Hobby	$16/月	3,000 页面	20/scrape/min
标准	$83/月	100,000 页面	100/scrape/min
Growth	$333/月	500,000 页面	1000/scrape/min
企业版	定制	无限页面	高级支持

🔹 免费试用：无需信用卡，即可测试 500 次抓取。
🔹 企业版支持：提供 高级代理、定制速率、增强安全性（SOC 2 Type II 认证）。

6. 结论

Firecrawl 是一个 强大、灵活、高效 的 Web 数据提取工具，特别适用于 AI 训练、RAG 应用、数据分析、自动化监控 等场景。

🚀 为什么选择 Firecrawl？

✅ 无代码 & 易集成：开箱即用的 API，支持 Node.js、Python。
✅ 动态内容支持：可处理 JavaScript 渲染页面（React、Vue、Angular）。
✅ 智能抓取 & 解析：自动优化数据，支持 Markdown、JSON、截图导出。
✅ 开源 & 可自托管：Docker & Helm 部署，确保数据隐私。
✅ 可扩展性：适用于小型项目和企业级应用。

💡 如果你的 AI 应用需要清理、结构化的 Web 数据，Firecrawl 是一个极佳的选择！ 🚀