目录
- 基本用法
- 加载参数
- 数据提取
- URL
- Java 风格异步编程
- Kotlin 风格异步编程
- 连续采集
- 事件处理
- 机器人流程自动化(RPA)
- WebDriver
- 大规模采集
- X-SQL
- AI 自动提取
- REST 服务
- 控制台
- 顶尖项目实战
PulsarRPA (国内镜像)是大规模采集 Web 数据的终极开源方案,可满足几乎所有规模和性质的网络数据采集需要。
大规模提取 Web 数据非常困难。网站经常变化并且变得越来越复杂,这意味着收集的网络数据通常不准确或不完整,PulsarRPA 开发了一系列尖端技术来解决这些问题。
我们提供了大量顶级站点的采集示例,从入门到资深,包含各种采集模式,包括顶尖大站的全站采集代码、反爬天花板的站点的采集示例,你可以找一个代码示例改改就可以用于自己的项目:
- Exotic Amazon,国内镜像 - 顶尖电商网站全站数据采集真实项目
- Exotic Walmart,国内镜像 - 顶尖电商网站数据采集示例
- Exotic Dianping,国内镜像 - 最困难的数据采集示例
我们的开源代码也包含 REST 服务、像数据库客户端一样的网页客户端等等,基于该网页客户端,你甚至可以稍稍完善一些用户体验就可以打造与最知名“采集器”相媲美的产品。
PulsarRPA(国内镜像)为解决网络数据管理、多源异构数据融合、网络数据挖掘、网络数据采集等问题,开发了一系列基础设施和前沿技术:支持高质量的大规模数据采集和处理,支持网络即数据库范式,支持浏览器渲染并将其作为数据采集的首要方法,支持 RPA 采集,支持退化的单一资源采集,支持最前沿的信息提取技术,使用自研机器学习技术,将网页数据提取人效提升了 1000 倍以上。
本课程将从最基本的 API 出发,逐步介绍高级特性,从而解决最棘手的重要问题。