Python爬虫 懒加载页面

在爬取图片网站时发现浏览器上显示的源码和使用python爬取的源码不同,这里指html页面。网上给的解释是网站使用了懒加载模式,意识是说页面在浏览器加载的时候不会全部加载,而是等用户向下滑动或者页面显示在屏幕范围内时才会加载,这样的好处是减小服务器压力,缩短页面响应时间。
下面展示一下具体
在浏览器中通过xpath取值图片的src属性,都是正常的
在这里插入图片描述
在python中爬取的代码却是这个样子,没有src属性,只有data-original属性,推测页面在视口区域加载时通过js将src属性添加到img中,并且将data-original的值赋给src。
在这里插入图片描述
这里我使用的时lxml库,通过这种方法就可以取src的值了,另外大家注意这里div[@class=“item masonry_brick”]有两个类属性,如果只写一个属性是找不到对应元素的。

div_list = html.xpath('//div[@id="infinite_scroll"]/div[@class="item masonry_brick"]/div[@class="item_t"]/div[@class="img"]/a/img/@data-original')
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值