GookSeeker爬取数据

GookSeeker爬取数据

一、使用gooseeker爬取数据
首先需要下载GooSeeker,通过浏览器在官网中下载,需要注意的是要先注册才能够下载
在这里插入图片描述

下载安装好GooSeeker后,此次我要爬取的是天气预报网
在GooSeeker的浏览器导航中输入天气预报网的网址
在这里插入图片描述

点击定义规则后会出现如图所示的工作台

在这里插入图片描述
在工作台“命名任务”标签下输入任务名,通过点击查重来检查该任务名是否可用

在这里插入图片描述

在工作台的“创建规则”标签下,点击“新建”来创建一个整理箱。在弹出的窗口中输入整理箱名,这里我把它命名为“历史天气”
在这里插入图片描述

要获取“日期”数据,就点击“日期”那个区域,这时候就会自动定位“日期”在HTML中结点的位置(DIV结点)。展开该节点,因为“日期”是一个text,所以找到结点下的text标签右键->内容映射->新建抓取内容
在这里插入图片描述
在这里插入图片描述
以同样的规则抓取温度、天气、风力和空气指数,需要注意的是必须勾选一个为关键内容,我在此处勾选的历史天气为关键内容
在这里插入图片描述
首先先在工作台的“创建规则”标签下选中整理箱,然后勾选“样例复制管理”中的“启用”。分别找到第一行和第二行天气信息对应的节点。右键第一行天气信息对应结点,在对应的标签上右键选择“样例复制映射->第一个”
在这里插入图片描述
点击测试可以得到数据,看看这些数据是否是我们所需要的数据

在这里插入图片描述

之后会跳转到DS 打数机的界面,此时就开始爬数据了。
在这里插入图片描述
查看数据所保存的路径
在这里插入图片描述
然后找到文件所在的位置
在这里插入图片描述
此时可以发现,我爬取的仅仅只是一个月的数据,但是当爬取多个月的数据时呢?此时就需要翻页了
在爬虫路线中点击新建

在这里插入图片描述

勾选连续翻页
在这里插入图片描述
在网页上点击用于翻页的“上一月”,然后在网页标签中找到其对应的结点,右键选择“翻页映射–作为翻页区–线索1”进行线索定位映射;再在该结点下的text结点上右键选择“翻页映射–作为翻页记号”。完成这步操作后的"爬虫路线"如下所示。
在这里插入图片描述
再次点击“存规则”来保存采集数据规则,然后开始爬数据。此时在指定的存储路径下就会包含多个XML文件了。
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值