PulsarRPAPro-基于监督学习算法高精度提取网页数据

本视频介绍如何训练机器学习模型,高精度提取网页数据,一次训练,永久有效。

具体方法是:使用PulsarRPAPro采集商品详情页,使用无监督学习技术自动提取数据,得到一个初始的数据集,经过简单的人工校验和数据标注之后,形成了一个可以训练机器学习模型的数据集。用这个数据集训练机器学习模型,就可以高精度提取网页数据。

PulsarRPAPro-基于监督学习算法高精度提取网页数据

举个例子,我们要采集amazon上的产品数据,譬如标题,评分,价格等等。在传统上,我们需要使用PulsarRPA,selenium这样的浏览器自动化工具,逐一打开商品详情页,花费大量时间,编写X-SQL,正则表达式等来提取网页数据,将网页转变成可直接分析的结构化数据。

本视频中,我们使用 PulsarRPAPro 的无监督学习技术自动将每一个字段提取出来,形成初步的数据集,对自动提取出来的字段进行人工校验,剔除错误数据,给每个字段一个名字,得到一个良好标注的数据集,训练一个机器学习模型。

经过训练后,整体准确率超过 98%,而绝大部分字段的准确率和召回率均达到了100%。随着数据质量的提升和训练集的扩大,精度将继续提升。

最后,我们将模型预测结果导出,也就是网页数据提取结果。

使用无监督学习+监督学习进行网页数据提取,我们将网页数据提取的人效提升了1000倍以上,提升了数据提取准确率,降低了人员技能要求,同时也不再需要频繁维护数据提取规则。

在下一个视频中,我们将介绍,采集多个站点网页,一次标注,训练机器学习模型,从而实现单一机器学习模型,自动提取多站点数据。

  • 6
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值