解锁数据抓取新境界：Firecrawl—将整个网站轻松转化为LLM-ready数据的神器【NO.01】

黑金IT

已于 2024-08-14 21:13:58 修改

阅读量637

点赞数 17

文章标签： python

于 2024-08-14 11:52:35 首次发布

本文链接：https://blog.csdn.net/ylong52/article/details/141186484

版权

这是全网首发，独家揭秘Firecrawl本地环境搭建全流程【而非COPY官方教程】，手把手教学使用技巧，助你轻松掌握这款强大工具。

在近期的技术研究中，我专注于一个名为Firecrawl的开源项目，它被誉为网页抓取领域的一颗新星。Firecrawl不仅仅是一个简单的爬虫工具，它更像是一个智能机器人，具备高效且智能的网页探索能力。当你为Firecrawl指定一个起始网页后，它便能自动追踪并访问该网站上的所有其他页面，无需依赖网站的地图文件。

Firecrawl的核心优势在于其强大的内容提取能力。它能够智能识别并解析JavaScript、Vue等现代Web技术构建的页面，这意味着即使是动态生成的内容，也能被它精准捕捉。在抓取过程中，Firecrawl能够智能过滤掉广告和其他非必要元素，只保留每个页面的核心内容，这一点对于追求高质量数据抓取的用户来说，无疑是极大的福音。

由于sdk需要apikey，属于收费项目。如果本地安装就实现了自由解锁。能省下你的金币整整别的事。本文详细的介绍是如何在本地安装及使用。

如果想直接使用api的，请前往官网申请apikey使用及学习。

git地址：快速入门 |萤火虫 --- Quickstart | Firecrawl

本地安装：

1,装依赖项：首先，您需要安装必要的依赖项。可以使用pnpm来安装这些依赖。运行以下命令来安装依赖：

git clone https://github.com/mendableai/firecrawl.git

cd firecrawl
cd apps/api
pnpm install  #我用的node -v 20.x

2,设置环境变量：在/apps/api/目录下的.env文件中设置环境变量。您可以从.env.example模板文件中复制这些变量。以下是一些必需的环境变量示例：

NUMWORKERSPERQUEUE=8
PORT=3002
HOST=0.0.0.0
REDISURL=redis://localhost:6379
USEDBAUTHENTICATION=false

一定要设置好redis地址。如果跟firecrawl在同一个linux环境，就使用localhost。如果是使用docker就需要按docker修改下地址。我这没有使用docker，就不说明了

3，运行workes环境

cd apps/api
pnpm run workes

4, 运行start

cd apps/api
pnpm run start

5，测试运行。

curl -X GET http://localhost:3002/test

输出：hello,world表示成功。

6,使用POSTMAN工具来测试。

我随便找了采集地址放到url参数内。192地址是我的网地址，请修改为自己的。

=== 完 ===

黑金IT

关注

17
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫