用UiPath实现网页抓取——表格数据提取-1-单击选择分类-ISO标准化-01-综合、术语、标准化、文献目录获取

用UiPath实现网页抓取——表格数据提取-1-单击选择分类-ISO标准化-01-综合、术语、标准化、文献目录获取

1.下载前的准备

准备获取目录的链接是
全国标准信息公告服务平台链接: https://std.samr.gov.cn/search/iso?tid=&q=
在这里插入图片描述

2.手动获取数据的过程

第一步,标注啊类型选择——ISO
第二步,标准化状态选择——现行
第三步,ICS分类选择——01_综合、术语标准化、文献
在这里插入图片描述
在这里插入图片描述
将数据分别复制到excel文件中,如下图。
由于国际标准分类号在UiPath的实际操作过程中分成了两列进行获取,所以我们在excel中设置了两列,当数据获取后再进行合并就可以了。
在这里插入图片描述

3.用UiPath网页抓取

第一步,新建一个流程
在这里插入图片描述
在这里插入图片描述
第二步,选择使用浏览器,并选择需要获取数据的链接
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
获取到浏览器的链接
在这里插入图片描述
第三步,选择文件的分类选项
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

①选择点击的对象是——ISO 选择锚点是——标准类型
②选择点击的对象是——现行 选择锚点是——标准状态
③选择点击的对象是——01-综合、术语、标准化、文献 选择锚点是——标准状态
在这里插入图片描述
第四步,选择表格数据提取在这里插入图片描述
获取数据并重命名
在这里插入图片描述

在这里插入图片描述
如果要获取多个页面中的数据,选择从多个页面提取数据为是
选择下一页的按钮
在这里插入图片描述
如果遇到页码和下一页按钮不能显示的问题,将谷歌中的页面放大即刻看到页码和下一页
在这里插入图片描述
在这里插入图片描述
点击设置,设定最大行数为多少或者最大页数为多少
在这里插入图片描述

在这里插入图片描述

第五步,写入范围 Workbook

在这里插入图片描述
在这里插入图片描述

填excel文件名和表单名
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
完整流程如下图
在这里插入图片描述

第六步,调试文件获取目录
注意:在调试文件前关闭浏览器
在这里插入图片描述
下载完成
在这里插入图片描述
获取到的目录
在这里插入图片描述
添加每列的标题即可
在这里插入图片描述

  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
安居客是一个房地产信息网站,为了获取其中的数据,可以使用Python编写爬虫程序进行网页内容的抓取。通过分析网页的结构和规律,可以从安居客网站上获取所需的数据。爬虫程序可以通过请求网页的URL,获取网页的HTML源码,然后使用Python的相关库(如BeautifulSoup)对HTML进行解析,提取出需要的数据。 在获取数据之后,需要进行数据清洗。数据清洗是指对采集到的原始数据进行清理、处理,使其符合数据分析的要求。例如,去除重复数据、处理缺失值、剔除异常值等。通过使用Python的数据处理库(如pandas)可以方便地进行数据清洗的操作。 数据清洗完成后,可以进行数据分析。数据分析是指对清洗后的数据进行统计、计算、挖掘等操作,以获取其中的有价值的信息和规律。Python中有很多用于数据分析的库,如numpy、scipy、matplotlib等。可以使用这些库进行数据的统计分析、机器学习算法的实施、模型的构建等。 最后,为了更好地展示分析结果,可以进行数据可视化。数据可视化是指使用图表、图像等形式将数据进行直观、易懂的展示。Python中的matplotlib、seaborn等库提供了丰富的图表绘制功能,可以将数据转换为直观的图表,以便更好地帮助用户理解和分析数据。 综上所述,通过安居客数据的爬取、数据清洗和数据分析可视化,可以获取并理解网站上房地产相关的有价值信息,为用户提供更好的数据分析与决策支持。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值