PulsarRPAPro-基于监督学习算法高精度提取网页数据

PlatonAI

于 2024-01-19 16:54:02 发布

阅读量434

点赞数 6

文章标签：数据挖掘网络爬虫机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_48738961/article/details/135702207

版权

本视频介绍如何训练机器学习模型，高精度提取网页数据，一次训练，永久有效。

具体方法是：使用PulsarRPAPro采集商品详情页，使用无监督学习技术自动提取数据，得到一个初始的数据集，经过简单的人工校验和数据标注之后，形成了一个可以训练机器学习模型的数据集。用这个数据集训练机器学习模型，就可以高精度提取网页数据。

PulsarRPAPro-基于监督学习算法高精度提取网页数据

举个例子，我们要采集amazon上的产品数据，譬如标题，评分，价格等等。在传统上，我们需要使用PulsarRPA，selenium这样的浏览器自动化工具，逐一打开商品详情页，花费大量时间，编写X-SQL，正则表达式等来提取网页数据，将网页转变成可直接分析的结构化数据。

本视频中，我们使用 PulsarRPAPro 的无监督学习技术自动将每一个字段提取出来，形成初步的数据集，对自动提取出来的字段进行人工校验，剔除错误数据，给每个字段一个名字，得到一个良好标注的数据集，训练一个机器学习模型。

经过训练后，整体准确率超过 98%，而绝大部分字段的准确率和召回率均达到了100%。随着数据质量的提升和训练集的扩大，精度将继续提升。

最后，我们将模型预测结果导出，也就是网页数据提取结果。

使用无监督学习+监督学习进行网页数据提取，我们将网页数据提取的人效提升了1000倍以上，提升了数据提取准确率，降低了人员技能要求，同时也不再需要频繁维护数据提取规则。

在下一个视频中，我们将介绍，采集多个站点网页，一次标注，训练机器学习模型，从而实现单一机器学习模型，自动提取多站点数据。

关注

6
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
PulsarRPAPro-基于监督学习算法高精度提取网页数据

使用无监督学习+监督学习进行网页数据提取，我们将网页数据提取的人效提升了1000倍以上，提升了数据提取准确率，降低了人员技能要求，同时也不再需要频繁维护数据提取规则。
复制链接

扫一扫

PlatonAI CSDN认证博客专家 CSDN认证企业博客

码龄4年

31: 原创

116万+: 周排名

8万+: 总排名

2万+: 访问

: 等级

415: 积分

849: 粉丝

86: 获赞

24: 评论

115: 收藏

私信

关注

热门文章

分类专栏

最新评论

大规模 Web 数据采集的终极开源方案 - PulsarRPA
PlatonAI: 你好，exotic-amazon 项目主页说明文档应该有介绍的。
大规模 Web 数据采集的终极开源方案 - PulsarRPA
qq_36229850: 你好，我下载下来exotic-amazon-v0.5.5，无法编译，缺少关于 ai.platon.scent 的依赖，这个要怎么解决呢
PulsarRPA 教程 1 - 基本用法
qq_36229850: 你好，我下载了exotic-amazon,ai.platon.scent这个包没办法引入，请问应该怎么用呢
PulsarRPA 教程 1 - 基本用法
言之有李LAX: 大佬回复了! 首先我是下载的PulsarRPA这个项目，编译允许提示缺少import com.github.kklisura.cdt.protocol.v2023.types.target.*;。然后通过maven引入了依赖，通过WebPage page = session.load(url, "-expires 1d"); 或者直接使用load(url)，dom解析后，发现body里面全是空的。现在发现了PulsarRPAPro 正在研究还没看懂咋用的....
PulsarRPA 教程 1 - 基本用法
PlatonAI: 这种情况通常不会发生。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。