PulsarRPA 教程 - 目录

PlatonAI

已于 2024-01-26 17:05:08 修改

阅读量716

点赞数

分类专栏： PulsarRPA 文章标签：爬虫数据挖掘大数据网络爬虫人工智能

于 2022-10-31 12:04:47 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_48738961/article/details/127534104

版权

PulsarRPA 专栏收录该内容

24 篇文章 12 订阅

订阅专栏

目录

PulsarRPA （国内镜像）是大规模采集 Web 数据的终极开源方案，可满足几乎所有规模和性质的网络数据采集需要。

大规模提取 Web 数据非常困难。网站经常变化并且变得越来越复杂，这意味着收集的网络数据通常不准确或不完整，PulsarRPA 开发了一系列尖端技术来解决这些问题。

我们提供了大量顶级站点的采集示例，从入门到资深，包含各种采集模式，包括顶尖大站的全站采集代码、反爬天花板的站点的采集示例，你可以找一个代码示例改改就可以用于自己的项目：

Exotic Amazon，国内镜像 - 顶尖电商网站全站数据采集真实项目
Exotic Walmart，国内镜像 - 顶尖电商网站数据采集示例
Exotic Dianping，国内镜像 - 最困难的数据采集示例

我们的开源代码也包含 REST 服务、像数据库客户端一样的网页客户端等等，基于该网页客户端，你甚至可以稍稍完善一些用户体验就可以打造与最知名“采集器”相媲美的产品。

PulsarRPA（国内镜像）为解决网络数据管理、多源异构数据融合、网络数据挖掘、网络数据采集等问题，开发了一系列基础设施和前沿技术：支持高质量的大规模数据采集和处理，支持网络即数据库范式，支持浏览器渲染并将其作为数据采集的首要方法，支持 RPA 采集，支持退化的单一资源采集，支持最前沿的信息提取技术，使用自研机器学习技术，将网页数据提取人效提升了 1000 倍以上。

本课程将从最基本的 API 出发，逐步介绍高级特性，从而解决最棘手的重要问题。

上一章目录下一章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
PulsarRPA 教程 - 目录

为解决网络数据管理、多源异构数据融合、网络数据挖掘、网络数据采集等问题，开发了一系列基础设施和前沿技术：支持高质量的大规模数据采集和处理，支持网络即数据库范式，支持浏览器渲染并将其作为数据采集的首要方法，支持 RPA 采集，支持退化的单一资源采集，并计划支持最前沿的信息提取技术，提供了人工智能网页提取的预览版本。）是大规模采集 Web 数据的终极开源方案，可满足几乎所有规模和性质的网络数据采集需要。
复制链接

扫一扫

专栏目录

PlatonAI CSDN认证博客专家 CSDN认证企业博客

码龄4年

31: 原创

116万+: 周排名

7万+: 总排名

2万+: 访问

: 等级

414: 积分

848: 粉丝

85: 获赞

24: 评论

114: 收藏

私信

关注

热门文章

分类专栏

最新评论

大规模 Web 数据采集的终极开源方案 - PulsarRPA
PlatonAI: 你好，exotic-amazon 项目主页说明文档应该有介绍的。
大规模 Web 数据采集的终极开源方案 - PulsarRPA
qq_36229850: 你好，我下载下来exotic-amazon-v0.5.5，无法编译，缺少关于 ai.platon.scent 的依赖，这个要怎么解决呢
PulsarRPA 教程 1 - 基本用法
qq_36229850: 你好，我下载了exotic-amazon,ai.platon.scent这个包没办法引入，请问应该怎么用呢
PulsarRPA 教程 1 - 基本用法
言之有李LAX: 大佬回复了! 首先我是下载的PulsarRPA这个项目，编译允许提示缺少import com.github.kklisura.cdt.protocol.v2023.types.target.*;。然后通过maven引入了依赖，通过WebPage page = session.load(url, "-expires 1d"); 或者直接使用load(url)，dom解析后，发现body里面全是空的。现在发现了PulsarRPAPro 正在研究还没看懂咋用的....
PulsarRPA 教程 1 - 基本用法
PlatonAI: 这种情况通常不会发生。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。