python爬虫(图片)
1. 需要导入模块
from urllib.request import urlretrieve #提供图片地址 下载图片
import requests #用来模拟浏览器发送请求
from lxml import etree #数据预处理
import time #让程序正常的休眠几秒
import os #创建文件夹
2. 代码
1. 定义url:指定我们要爬取的网页
# 请求网站
domains = 'http://www.netbian.com' #后面用
url='http://www.netbian.com/meinv/' #目标网址
2. 定义请求头headers:模拟浏览器
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4442.4 Safari/537.36'
} #模拟浏览器,默认为"爬虫"的头
3.发起请求
response = requests.get(url,headers=headers) #发起请求(地址,请求头)
response.encoding = 'gbk' #解决乱码
4.解析网址之获取响应代码
#解析网址
data = etree.HTML(response.text) #获取响应源代码,并存储
5.解析网址之匹配数据(第一层地址:不是数据链接)
friends_list=data.xpath('.//div[@class="list"]/ul/li') #利用xpath解析,即在源代码中匹配;并存储在数组中
6.循环爬取图片
i=1
n=1 #b
while 1:
for pic in friends_list: #将获得的数据地址全部循环读取一遍
num =len(friends_list)
names = pic.xpath('./a/img/@alt') #获取图片的名称
imgs = pic.xpath('./a/img/@src') #将地址对应的网址获取到
for name in names:
print(name)
for img in imgs:
print(img)
# 定义要创建的目录
dirs = "./mv/"
# 调用函数
if not os.path.exists(dirs):
os.makedirs(dirs)
urlretrieve(img,'./mv/'+str(name)+'.jpg') #将img对应的图片下载到本地
print('<%s>下载完毕'%name+'----------------------------------------------------------------------------------------------\n')
i=i+1
time.sleep(0.2) #休眠一秒
if i==num and n==1:
next = data.xpath('.//div[@class="page"]/a[@class="prev"]/@href')[0]
url= domains+next
response = requests.get(url, headers=headers) # 发起请求(地址,请求头)
response.encoding = 'gbk' # 解决乱码
# 解析网址
data = etree.HTML(response.text) # 获取响应源代码,并存储
friends_list = data.xpath('.//div[@class="list"]/ul/li') # 利用xpath解析,即在源代码中匹配;并存储在数组中
i=1
n=0 #标记
elif i==num:
next = data.xpath('.//div[@class="page"]/a[@class="prev"][2]/@href')[0]
url = domains + next
response = requests.get(url, headers=headers) # 发起请求(地址,请求头)
response.encoding = 'gbk' # 解决乱码
# 解析网址
data = etree.HTML(response.text) # 获取响应源代码,并存储
friends_list = data.xpath('.//div[@class="list"]/ul/li') # 利用xpath解析,即在源代码中匹配;并存储在数组中
i = 1
代码下载:https://download.csdn.net/download/weixin_52493010/20360664?spm=1001.2014.3001.5501