Python爬虫实战:爬取水效标识网4686页数据

大家好,我是南枫,在这篇Python技术文章中,我将介绍如何使用Python爬虫来爬取中国水效标识网4686页(一页数据为15条)数据,并将其保存在本地数据库中

图片

我们需要爬取的数据是点击“详细”按钮,才能看到的具体数据:

图片

我以红线标出来的数据就是我们需要使用爬虫技术爬取下来,并保存到数据库里的,那么,我们首先先使用爬虫技术来把这些数据都爬下来(跟紧南枫步伐,不要掉队)

首先,我们需要找到数据所在位置,找到之后才能对他进行爬取:

图片

点击之后

图片

图片

图片

图片

此时我们看到的所有内容皆为我们需要爬取的数据,那么接下来就是要把数据爬取下来。

导入对应模块,对找到的ajax加载文件进行发送请求,获取到对应的所有数据。

在这里我们可以打印json_data来查看一下数据是说明类型的

图片

可以看到我们现在的数据,是在列表中,那么我们就需要把数据从列表中通过循环拿出来。

图片

这便是我们通过循环所获取到的数据。

那现在数据已经获取下来了,我们又该如何保存到数据库中去呢?

图片

首先我们要下载Navicat,一个数据库可视化软件,再去下载mongodb或者mysql数据库,下载完成之后才能进行接下来的操作。

图片

在这里我已经以光速下载好了,准备好之后,我们接下来就可以去把数据保存进我们数据库中啦,接着跟紧南枫来操作吧~

为什么要写这些代码?写这些代码有什么作用?我都在Pycharm里面写好注释了,大家自行观看、文明观看、禁止投喂,谢谢~(感觉有点像动物园宣传语)

图片

重点是我用红色框标注的内容

这里就有人会在评论区问了:“哎呀,你12行写的for是什么呀?”没错,我预判了你们的预判,这里所写的就是range,为了就是起到翻页的效果,我在文章开头就已经说了,我们要爬取4686页的数据,那我们每爬一页,是不是就得翻一页呢?这样数据才会出来呀,对吧,据我观察,翻页只需要去改变他的page值就行

图片

如果有实践党,那么可以去看看官网,是不是这样滴。

图片

这个就是我把数据“插入”到数据库的截图,当然这里是会动得,但是我不知道咋录动图,所以不知道搞(理直气壮),我们看看数据库里是否已经有数据保存进来:

图片

打开之后可以看到,mongodb里面已经有一个数据库表出来了

表里面也有一个集合,那么数据是否在集合里面呢?不要眨眼,看下图:

图片

(掌声在哪里!?)

Ok,这个数据入库项目,你学会没有?

  • 37
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值