Python爬虫实战：爬取水效标识网4686页数据

Python之栈

于 2024-05-20 12:00:00 发布

阅读量1.4k

点赞数 37

文章标签： python 爬虫开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_53707653/article/details/139041931

版权

大家好，我是南枫，在这篇Python技术文章中，我将介绍如何使用Python爬虫来爬取中国水效标识网4686页（一页数据为15条）数据，并将其保存在本地数据库中。

我们需要爬取的数据是点击“详细”按钮，才能看到的具体数据：

我以红线标出来的数据就是我们需要使用爬虫技术爬取下来，并保存到数据库里的，那么，我们首先先使用爬虫技术来把这些数据都爬下来（跟紧南枫步伐，不要掉队）

首先，我们需要找到数据所在位置，找到之后才能对他进行爬取：

点击之后

此时我们看到的所有内容皆为我们需要爬取的数据，那么接下来就是要把数据爬取下来。

导入对应模块，对找到的ajax加载文件进行发送请求，获取到对应的所有数据。

在这里我们可以打印json_data来查看一下数据是说明类型的

可以看到我们现在的数据，是在列表中，那么我们就需要把数据从列表中通过循环拿出来。

这便是我们通过循环所获取到的数据。

那现在数据已经获取下来了，我们又该如何保存到数据库中去呢？

首先我们要下载Navicat，一个数据库可视化软件，再去下载mongodb或者mysql数据库，下载完成之后才能进行接下来的操作。

在这里我已经以光速下载好了，准备好之后，我们接下来就可以去把数据保存进我们数据库中啦，接着跟紧南枫来操作吧~

为什么要写这些代码？写这些代码有什么作用？我都在Pycharm里面写好注释了，大家自行观看、文明观看、禁止投喂，谢谢~（感觉有点像动物园宣传语）

重点是我用红色框标注的内容

这里就有人会在评论区问了：“哎呀，你12行写的for是什么呀？”没错，我预判了你们的预判，这里所写的就是range，为了就是起到翻页的效果，我在文章开头就已经说了，我们要爬取4686页的数据，那我们每爬一页，是不是就得翻一页呢？这样数据才会出来呀，对吧，据我观察，翻页只需要去改变他的page值就行

如果有实践党，那么可以去看看官网，是不是这样滴。

这个就是我把数据“插入”到数据库的截图，当然这里是会动得，但是我不知道咋录动图，所以不知道搞（理直气壮），我们看看数据库里是否已经有数据保存进来：

打开之后可以看到，mongodb里面已经有一个数据库表出来了

表里面也有一个集合，那么数据是否在集合里面呢？不要眨眼，看下图：

（掌声在哪里！？）

Ok，这个数据入库项目，你学会没有？

关注

37
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫实战：爬取水效标识网4686页数据

没错，我预判了你们的预判，这里所写的就是range，为了就是起到翻页的效果，我在文章开头就已经说了，我们要爬取4686页的数据，那我们每爬一页，是不是就得翻一页呢？我以红线标出来的数据就是我们需要使用爬虫技术爬取下来，并保存到数据库里的，那么，我们首先先使用爬虫技术来把这些数据都爬下来（跟紧南枫步伐，不要掉队）在这里我已经以光速下载好了，准备好之后，我们接下来就可以去把数据保存进我们数据库中啦，接着跟紧南枫来操作吧~可以看到我们现在的数据，是在列表中，那么我们就需要把数据从列表中通过循环拿出来。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。