爬虫笔记_1、爬虫的五个步骤及举例

爬虫的五个步骤:

  • 1.需求分析
  • 2.寻找网址
  • 3.下载网站的返回内容(需要用到:requests)
  • 4.通过网站的返回内容找到需要爬取的数据(需要用到:正则表达式re,XPATH-lxml)
  • 5.存储找到的数据内容(需要用到:MySQL)

其中,步骤1、2是我们自己根据自己的需要去分析设定的,步骤3、4、5是需要自己写程序来执行的。

需求分析

假如需求是:爬取十万张美女图片:

  • 首先我们需要的图片
  • 其次是美女图片,准确定位需求,不然什么照片都爬取下来,肯定是不符合要求的
  • 就以下图为例:
    在这里插入图片描述

寻找网址(URL

今日头条上面就有很多的照片,所以在今日头条中直接搜:美女图片,如上图

下载网站的返回内容

我们在图片上点击鼠标右键,再点击Inspect(检查),就可以弹出网页的HTML,
在这里插入图片描述

通过网站的返回内容找到需要爬取的数据:

在这里插入图片描述
其中标红的部分,就是我们要找的图片的地址

存储找到的数据内容:

我们将标红的地址复制出来,在新的标签页打开,然后下载存储,就完成了一张图片的获取。
在这里插入图片描述

总结:

1、先考虑需求
2、考虑在哪里可以下载到
3、找到对应的HTML
4、找到我们最终需要的图片jpg
5、存储jpg文件

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值