解锁数据抓取新境界：Firecrawl—将整个网站轻松转化为LLM-ready数据的神器【NO.02】

黑金IT

已于 2024-08-14 21:18:56 修改

阅读量522

点赞数 14

文章标签： redis python

于 2024-08-14 17:07:40 首次发布

本文链接：https://blog.csdn.net/ylong52/article/details/141193877

版权

这是全网首发，独家揭秘Firecrawl本地环境搭建全流程【而非COPY官方教程】，手把手教学使用技巧，助你轻松掌握这款强大工具。

前面已经说了关于scrape抓取一个页面的用法

下面要说明整理一个中大型网站采集时，如果一个个页面的采集效率太低

用什么办法才能一次性将所有的url同时采集下来。Firecrawl 的批量采集功能主要通过其递归爬取技术实现。用户只需提供一个起始URL，Firecrawl 就能够自动追踪并访问网站上的所有其他页面，无需依赖站点地图文件。这一过程称为“递归遍历”，它能够确保从任何起始URL进行详尽的抓取和数据收集。

在进行批量采集时，Firecrawl 还具备强大的内容提取能力，能够智能识别并解析JavaScript、Vue等现代Web技术构建的页面，这意味着即使是动态生成的内容，也能被精准捕捉。

此外，Firecrawl 在抓取过程中能够智能过滤掉广告和其他非必要元素，只保留每个页面的核心内容，这对于追求高质量数据抓取的用户来说，是一个极大的优势。

Firecrawl 还提供了易于使用的 API 服务，允许用户通过简单的 API 调用实现内容的爬取和转换，支持广泛的自定义和配置选项，以适应不同的使用需求4。例如，用户可以通过 API 发送请求来启动爬取任务，并提供目标 URL。API 会返回一个任务 ID，用于检查状态和检索爬取结果。

并且是用异步方式实现的采集，速度非常的快。

下面还是使用本地安装的为示例。

我本地的安装后的ip是192.168.23.129。环境必须启动（No.01）有详细的讲解

1，先加入队例

curl --location --request POST 'http://192.168.23.129:3002/v0/crawl' \
--header 'Content-Type: application/json' \
--data-raw '{
      "url": "https://www.doors10.com"
    }'

返回一个队列ＩＤ

{

"jobId": "c76fa831-a835-4b1c-9f83-4ea8d1ab4887"

}

2，查询队列

curl --location --request GET 'http://192.168.23.129:3002/v0/crawl/status/c76fa831-a835-4b1c-9f83-4ea8d1ab4887'

返回一个JSON数组。将近50条记录。估计有50多个页面了。

我这边运行使用了67s,速度非常的快。key键有content,markdown. markdown 如下图：

这个是通过本地环境取得的数据。所以需要调用ai清洗数据，这个也不难。需要具体清洗数据的用户可以私信我，给到方案的。重点说明不能使用官网提示的集成使用langchain等框架的api方式来清洗数据，因为要调用官网api的apikey，并且可能要进入付费模式

最后，如果使用本地搭建开发环境。后面关于官网提到的提取结构或搜索之类，需要使用国外的openAI模型。但是为了国内同学，建议取得了上面的采集内容。然后自行写码对接国内的LLM来处理。除非你个人对开源的Firecrawl改码能力很强，去进行修改，但是我不建议这样做。

黑金IT

关注

14
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫