爬虫实战练习之网站图片批量下载

计算机练习生

于 2022-02-14 16:59:27 发布

阅读量1.5k

点赞数

分类专栏：计算机文章标签：爬虫 python

本文链接：https://blog.csdn.net/weixin_55398970/article/details/122927146

版权

本文介绍了如何通过Python爬虫实现网站图片的批量下载，详细讲解了接口地址规律的分析、请求头的设置、图片URL的查找方法，并提供了编写爬虫函数的步骤。遇到问题可联系作者讨论，关注作者以获取更多编程实战教程。

摘要由CSDN通过智能技术生成

爬虫实战练习之网站图片批量下载

难点

难点

1.接口地址的规律

# ----------------------------解析实战-----------------------------
from urllib.request import HTTPHandler, build_opener, Request, urlretrieve, urlopen
from lxml import etree

# 第一页：https://www.aigei.com/s?dim=cartoon_124_animatio&detailTab=file&type=pic
# 第二页：https://www.aigei.com/s?dim=cartoon_124_animatio&detailTab=file&type=pic&page=2
# 第三页：https://www.aigei.com/s?dim=cartoon_124_animatio&detailTab=file&type=pic&page=3

base_url = 'https://www.aigei.com/s?dim=cartoon_124_animatio&detailTab=file&type=pic'

复制前三页的接口url，可以看出他们的相同和不同，不同之处且有规律可循
因此我们首先记下共同的部分。

2.设置请求头的内容

# header里为集合，每个键值用逗号,隔开!!!
# 'accept-encoding': 'gzip, deflate, br',不能带，会报错:
#      '''utf-8' codec can't decode byte 0x8b in position 1: invalid start byte'''
header = {
   
'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',

'accept-language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6'