解锁数据抓取新境界:Firecrawl—将整个网站轻松转化为LLM-ready数据的神器【NO.02】

这是全网首发,独家揭秘Firecrawl本地环境搭建全流程【而非COPY官方教程】,手把手教学使用技巧,助你轻松掌握这款强大工具。

 前面已经说了关于scrape抓取一个页面的用法

下面要说明整理一个中大型网站采集时,如果一个个页面的采集效率太低

用什么办法才能一次性将所有的url同时采集下来。Firecrawl 的批量采集功能主要通过其递归爬取技术实现。用户只需提供一个起始URL,Firecrawl 就能够自动追踪并访问网站上的所有其他页面,无需依赖站点地图文件。这一过程称为“递归遍历”,它能够确保从任何起始URL进行详尽的抓取和数据收集。

在进行批量采集时,Firecrawl 还具备强大的内容提取能力,能够智能识别并解析JavaScript、Vue等现代Web技术构建的页面,这意味着即使是动态生成的内容,也能被精准捕捉。

此外,Firecrawl 在抓取过程中能够智能过滤掉广告和其他非必要元素,只保留每个页面的核心内容,这对于追求高质量数据抓取的用户来说,是一个极大的优势。

Firecrawl 还提供了易于使用的 API 服务,允许用户通过简单的 API 调用实现内容的爬取和转换,支持广泛的自定义和配置选项,以适应不同的使用需求4。例如,用户可以通过 API 发送请求来启动爬取任务,并提供目标 URL。API 会返回一个任务 ID,用于检查状态和检索爬取结果。

并且是用异步方式实现的采集,速度非常的快。

下面还是使用本地安装的为示例 。

我本地的安装后的ip是192.168.23.129。环境必须启动(No.01)有详细的讲解

1,先加入队例

curl --location --request POST 'http://192.168.23.129:3002/v0/crawl' \
--header 'Content-Type: application/json' \
--data-raw '{
      "url": "https://www.doors10.com"
    }'

返回一个队列ID 

 {

    "jobId": "c76fa831-a835-4b1c-9f83-4ea8d1ab4887"

}

 2,查询队列

curl --location --request GET 'http://192.168.23.129:3002/v0/crawl/status/c76fa831-a835-4b1c-9f83-4ea8d1ab4887'

返回一个JSON数组。将近50条记录。估计有50多个页面了。

我这边运行使用了67s,速度非常的快。key键有content,markdown. markdown  如下图: 

这个是通过本地环境取得的数据。所以需要调用ai清洗数据,这个也不难。需要具体清洗数据的用户可以私信我,给到方案的。重点说明不能使用官网提示的集成使用langchain等框架的api方式来清洗数据,因为要调用官网api的apikey,并且可能要进入付费模式

最后,如果使用本地搭建开发环境。后面关于官网提到的提取结构或搜索之类,需要使用国外的openAI模型。但是为了国内同学,建议取得了上面的采集内容。然后自行写码对接国内的LLM来处理。除非你个人对开源的Firecrawl改码能力很强,去进行修改,但是我不建议这样做。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值