在带大家爬取图片懒加载页面之前, 先为大家介绍一下什么是图片懒加载, 懒加载有什么用, 在理解原理后再去爬取, 相信就会简单多了。
1.什么是懒加载
在一些网站或者app上会看到 鼠标或手势过快,而图片没有加载出来由色块或其他图片代替的情况,当图片出现在我们看到的视图中,再迅速将占位图片换成我们真正想展示的图片,这里使用了一种技术,图片懒加载
2.为什么要使用懒加载
当你打开一个网站时,浏览器会做许多工作,这其中包括下载各种可能用到的资源,然后渲染呈现在你面前,假设你的网站有大量的图片,那么加载的过程是很耗时的,尤其像那些新闻资讯类需要大量图片的网站,可想而知,网站的初始加载时间会很长,再加上网络等其它影响,用户体验会很差。我们都希望一输入网址,页面立马就呈现在眼前。
既然想要页面立马呈现在面前,那势必要减少浏览器的负荷,优化代码,减少一些不必要的请求和不必要资源的加载,因为你打开网站的时候,浏览器会把所有可能的资源都下载好,而实际上有些资源你并不需要用到,这就造成了浪费。所以有必要在一些资源上做下优化,提高网站加载速度。
那么介绍完了, 就该进入正题了, 我们应该如何爬取带有图片懒加载功能的页面。
3.如何爬取图片懒加载的网站
今天带大家爬取图片懒加载的网站是站长素材中的高清图片
点击这里进入站长素材
3.1 分析爬虫页面, 指定爬取流程
-
url很容易确认, 当前的网址就是爬取的url
-
分析爬虫页面
进入页面后, 我们可以打开控制台(F12), 并选中图片, 可以看到每一张图片就是一个div, 如下图
我们点击div, 逐层点开, 可以看到内层的img标签就是存放图片链接的