爬虫笔记_1、爬虫的五个步骤及举例

最新推荐文章于 2025-03-03 11:10:14 发布

还没想好116

最新推荐文章于 2025-03-03 11:10:14 发布

阅读量2k

点赞数 2

分类专栏：爬虫文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44177568/article/details/102936812

版权

爬虫专栏收录该内容

3 篇文章

订阅专栏

文章目录

爬虫的五个步骤：

1.需求分析
2.寻找网址
3.下载网站的返回内容（需要用到：requests）
4.通过网站的返回内容找到需要爬取的数据（需要用到：正则表达式re,XPATH-lxml）
5.存储找到的数据内容（需要用到：MySQL）

其中，步骤1、2是我们自己根据自己的需要去分析设定的，步骤3、4、5是需要自己写程序来执行的。

需求分析

假如需求是：爬取十万张美女图片：

首先我们需要的图片
其次是美女图片，准确定位需求，不然什么照片都爬取下来，肯定是不符合要求的
就以下图为例：

寻找网址（URL）

今日头条上面就有很多的照片，所以在今日头条中直接搜：美女图片，如上图

下载网站的返回内容

我们在图片上点击鼠标右键，再点击Inspect（检查），就可以弹出网页的HTML，
在这里插入图片描述

通过网站的返回内容找到需要爬取的数据：

在这里插入图片描述
其中标红的部分，就是我们要找的图片的地址

存储找到的数据内容：

我们将标红的地址复制出来，在新的标签页打开，然后下载存储，就完成了一张图片的获取。
在这里插入图片描述

总结：

1、先考虑需求
2、考虑在哪里可以下载到
3、找到对应的HTML
4、找到我们最终需要的图片jpg
5、存储jpg文件

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。