PulsarRPA - 适用于网络爬虫和 AI agents 的高性能分布式 RPA

最新推荐文章于 2024-06-02 19:30:17 发布

PlatonAI

最新推荐文章于 2024-06-02 19:30:17 发布

阅读量638

点赞数 6

文章标签：网络爬虫大数据数据挖掘 rpa 人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_48738961/article/details/135700524

版权

视频介绍了如何使用 PulsarRPA，来完整精确地采集和管理最复杂的电商数据。

我们以 Amazon 为例，为了展示我们解决的是 Amazon 全球站点的问题，而不单单是个别网站的问题，我们就以 Amazon 英国站为例。

PulsarRPA - 适用于网络爬虫和 AI agents 的高性能分布式 RPA

PulsarRPA 同时打开很多个商品页面，滚动到页面底部，确保所有信息均完整呈现。

尤其值得注意的是，PulsarRPA 执行了一个高难度动作：点击打开 seller 信息面板，同 seller 信息面板交互，等待 seller 信息完整加载。

和其他 RPA 不同的是，PulsarRPA 的性能非常高，这就意味着成本非常低，一台普通机器，每天访问十万、几十万网页，采集数千万、上亿数据点，毫无压力。

PulsarRPA 也包含了一系列其他黑科技，包括使用监督学习、无监督学习技术自动提取大批量网站，我们将在其他视频中介绍。

这里 PulsarRPA 是打开了4套浏览器，每一套浏览器都代表了一个独立的用户去访问网站，每个用户又同时打开了很多个页面。

如果我们有大量的网页需要采集或者监控，那么同时打开成千上万个网页，也是很正常的事情。

为了演示效果，让大家看到PulsarRPA访问每一个网页的具体过程，我们让chrome浏览器显示了图像化界面。

在生产环境中，我们也可以不显示浏览器的图像化界面，从而节约系统资源，提高系统性能，降低总体成本。

从日志中可以看到，在这台机器上，系统性能大致是每秒钟两个网页。

由于每天有86,400秒，按照这个速度，一台机器每天大约可以采集17万个网页。

咱们的高性能分布式RPA在网页上执行了交互动作，保证了所有字段均完整呈现在页面上，每个页面会有100~200个高价值字段被提取出来。因此一台机器一天就可以采集1700万到3400万个字段，并且存入数据库。

如果考虑到详情页上的评论信息，这个数据将会更加庞大。

现在我们看一下数据提取结果。默认情况下，所有数据均保存到了数据库。同时，为了我们方便查看，也保存了一小部分到文件系统中，可以直接打开。

除了高性能分布式网上冲浪外，PulsarRPA也提供了一系列其他黑科技。

基于无监督学习的自动网页提取，和网页理解技术，来提取超大规模网页数据，或者支持 AI agents准确识别网页元素。

基于监督学习的网页提取技术，适用于大批量不同的网站进行数据提取，一次训练，永久有效。

欢迎关注 platon.ai 的其他视频和资料。

关注

6
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
PulsarRPA - 适用于网络爬虫和 AI agents 的高性能分布式 RPA

PulsarRPA 是一款高性能分布式 RPA，像真人一样访问网站，和真人一样和页面进行交互，确保所有信息均完整呈现。PulsarRPA 可以采集任何人类可见数据、页面源代码中存在的数据、或者任何其他流经浏览器的数据流。在确保所有信息完整精确被采集的同时，PulsarRPA 保证总体性能、数据质量和总体拥有成本。
复制链接

扫一扫

PlatonAI CSDN认证博客专家 CSDN认证企业博客

码龄4年

31: 原创

116万+: 周排名

8万+: 总排名

2万+: 访问

: 等级

415: 积分

849: 粉丝

86: 获赞

24: 评论

115: 收藏

私信

关注

热门文章

分类专栏

最新评论

大规模 Web 数据采集的终极开源方案 - PulsarRPA
PlatonAI: 你好，exotic-amazon 项目主页说明文档应该有介绍的。
大规模 Web 数据采集的终极开源方案 - PulsarRPA
qq_36229850: 你好，我下载下来exotic-amazon-v0.5.5，无法编译，缺少关于 ai.platon.scent 的依赖，这个要怎么解决呢
PulsarRPA 教程 1 - 基本用法
qq_36229850: 你好，我下载了exotic-amazon,ai.platon.scent这个包没办法引入，请问应该怎么用呢
PulsarRPA 教程 1 - 基本用法
言之有李LAX: 大佬回复了! 首先我是下载的PulsarRPA这个项目，编译允许提示缺少import com.github.kklisura.cdt.protocol.v2023.types.target.*;。然后通过maven引入了依赖，通过WebPage page = session.load(url, "-expires 1d"); 或者直接使用load(url)，dom解析后，发现body里面全是空的。现在发现了PulsarRPAPro 正在研究还没看懂咋用的....
PulsarRPA 教程 1 - 基本用法
PlatonAI: 这种情况通常不会发生。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。