2.7K+ Star!Crawl4AI:一个为大型语言模型(LLMs)和AI应用设计的网页爬虫和数据提取工具

Crawl4AI 简介

Crawl4AI[1] 是一个开源的、为大型语言模型(LLMs)和AI应用设计的网页爬虫和数据提取工具。

它简化了网页爬取和数据提取的过程,使其更加易于访问和使用。

项目特点

主要特点
  • 完全免费且开源

  • 支持LLM友好的输出格式(JSON、清洁的HTML、markdown)

  • 支持同时爬取多个URL

  • 提取并返回所有媒体标签(图片、音频和视频)

  • 提取所有外部和内部链接

  • 从页面提取元数据

  • 自定义钩子用于认证、头部和爬取前的页面修改

  • 用户代理自定义

  • 截取页面屏幕截图

  • 执行多个自定义JavaScript脚本

  • 多种分块策略:基于主题、正则表达式、句子等

  • 高级提取策略:余弦聚类、LLM等

  • 支持CSS选择器

  • 传递指令/关键词以优化提取

使用场景

Crawl4AI适用于需要从网页中快速提取大量数据的场景,如数据科学家、研究人员、开发者和AI应用开发者。

项目使用

快速开始
from crawl4ai import WebCrawler

# 创建WebCrawler实例
crawler = WebCrawler()

# 预热爬虫(加载必要的模型)
crawler.warmup()

# 在URL上运行爬虫
result = crawler.run(url="https://www.nbcnews.com/business")

# 打印提取的内容
print(result.markdown)
安装方法
使用pip
virtualenv venv
source venv/bin/activate
pip install "crawl4ai @ git+https://github.com/unclecode/crawl4ai.git"
使用Docker
docker build -t crawl4ai .
docker run -d -p 8000:80 crawl4ai
使用Docker Hub
docker pull unclecode/crawl4ai:latest
docker run -d -p 8000:80 unclecode/crawl4ai:latest

文档和资源

  • 官方文档网站[2]

  • 官方网站[3]

  • Twitter[4]


注:本文内容仅供参考,具体项目特性请参照官方 GitHub 页面的最新说明。

欢迎关注&点赞&在看,感谢你的阅读~


资源列表

[1]

Github地址: https://github.com/unclecode/crawl4ai

[2]

官方文档网站: https://crawl4ai.com/mkdocs/

[3]

官方网站: https://crawl4ai.com

[4]

Twitter: https://twitter.com/unclecode

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值