作者: 锋小刀
微信搜索【Python与Excel之交】关注我的公众号查看更多内容
目标URL:
https://lol.qq.com/data/info-heros.shtml
里面是LOL所有英雄的头像和名称,本次的爬取任务是该网页中所有英雄的皮肤图片:
分析网页
点击任一英雄头像,进去该英雄的详情页,里面存放着该英雄的信息和皮肤图片,所以要获取该英雄皮肤就需要从前面的url中进入该详情页:
我们点击鼠标右键查看网页源代码,发现网页不存在我们需要的内容,可以肯定该网页是动态加载的:
进入浏览器的开发者工具抓包,这里我们成功的抓取到存放英雄皮肤图片的url:
对比几条url,发现url后面的数字会发生变动,是不规则的,是每条url特有的id值,所以我们需要从网页中获取:
https://game.gtimg.cn/images/lol/act/img/js