这是全网首发,独家揭秘Firecrawl本地环境搭建全流程【而非COPY官方教程】,手把手教学使用技巧,助你轻松掌握这款强大工具。
在近期的技术研究中,我专注于一个名为Firecrawl的开源项目,它被誉为网页抓取领域的一颗新星。Firecrawl不仅仅是一个简单的爬虫工具,它更像是一个智能机器人,具备高效且智能的网页探索能力。当你为Firecrawl指定一个起始网页后,它便能自动追踪并访问该网站上的所有其他页面,无需依赖网站的地图文件。
Firecrawl的核心优势在于其强大的内容提取能力。它能够智能识别并解析JavaScript、Vue等现代Web技术构建的页面,这意味着即使是动态生成的内容,也能被它精准捕捉。在抓取过程中,Firecrawl能够智能过滤掉广告和其他非必要元素,只保留每个页面的核心内容,这一点对于追求高质量数据抓取的用户来说,无疑是极大的福音。
由于sdk需要apikey,属于收费项目。如果本地安装就实现了自由解锁。能省下你的金币整整别的事。本文详细的介绍是如何在本地安装及使用。
如果想直接使用api的,请前往官网申请apikey使用及学习。
git地址:快速入门 |萤火虫 --- Quickstart | Firecrawl
本地安装:
1,装依赖项:首先,您需要安装必要的依赖项。可以使用pnpm
来安装这些依赖。运行以下命令来安装依赖:
git clone https://github.com/mendableai/firecrawl.git
cd firecrawl
cd apps/api
pnpm install #我用的node -v 20.x
2,设置环境变量:在/apps/api/
目录下的.env
文件中设置环境变量。您可以从.env.example
模板文件中复制这些变量。以下是一些必需的环境变量示例:
NUMWORKERSPERQUEUE=8
PORT=3002
HOST=0.0.0.0
REDISURL=redis://localhost:6379
USEDBAUTHENTICATION=false
一定要设置好redis地址。如果跟firecrawl在同一个linux环境,就使用localhost。如果是使用docker就需要按docker修改下地址。我这没有使用docker,就不说明了
3,运行workes环境
cd apps/api
pnpm run workes
4, 运行start
cd apps/api
pnpm run start
5,测试运行。
curl -X GET http://localhost:3002/test
输出:hello,world表示成功。
6,使用POSTMAN工具来测试。
我随便找了采集地址放到url参数内。192地址是我的网地址,请修改为自己的。
=== 完 ===