本视频介绍如何训练机器学习模型,高精度提取网页数据,一次训练,永久有效。
具体方法是:使用PulsarRPAPro采集商品详情页,使用无监督学习技术自动提取数据,得到一个初始的数据集,经过简单的人工校验和数据标注之后,形成了一个可以训练机器学习模型的数据集。用这个数据集训练机器学习模型,就可以高精度提取网页数据。
PulsarRPAPro-基于监督学习算法高精度提取网页数据
举个例子,我们要采集amazon上的产品数据,譬如标题,评分,价格等等。在传统上,我们需要使用PulsarRPA,selenium这样的浏览器自动化工具,逐一打开商品详情页,花费大量时间,编写X-SQL,正则表达式等来提取网页数据,将网页转变成可直接分析的结构化数据。
本视频中,我们使用 PulsarRPAPro 的无监督学习技术自动将每一个字段提取出来,形成初步的数据集,对自动提取出来的字段进行人工校验,剔除错误数据,给每个字段一个名字,得到一个良好标注的数据集,训练一个机器学习模型。
经过训练后,整体准确率超过 98%,而绝大部分字段的准确率和召回率均达到了100%。随着数据质量的提升和训练集的扩大,精度将继续提升。
最后,我们将模型预测结果导出,也就是网页数据提取结果。
使用无监督学习+监督学习进行网页数据提取,我们将网页数据提取的人效提升了1000倍以上,提升了数据提取准确率,降低了人员技能要求,同时也不再需要频繁维护数据提取规则。
在下一个视频中,我们将介绍,采集多个站点网页,一次标注,训练机器学习模型,从而实现单一机器学习模型,自动提取多站点数据。