python爬虫(图片)

python爬虫(图片)

1. 需要导入模块

from urllib.request import  urlretrieve #提供图片地址 下载图片
import requests #用来模拟浏览器发送请求
from lxml import etree  #数据预处理
import time #让程序正常的休眠几秒
import  os #创建文件夹

2. 代码

1. 定义url:指定我们要爬取的网页
# 请求网站
domains = 'http://www.netbian.com'  #后面用
url='http://www.netbian.com/meinv/'  #目标网址
2. 定义请求头headers:模拟浏览器
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4442.4 Safari/537.36'
}   #模拟浏览器,默认为"爬虫"的头
3.发起请求
response = requests.get(url,headers=headers)    #发起请求(地址,请求头)
response.encoding = 'gbk' #解决乱码
4.解析网址之获取响应代码
#解析网址
data = etree.HTML(response.text)    #获取响应源代码,并存储
5.解析网址之匹配数据(第一层地址:不是数据链接)
friends_list=data.xpath('.//div[@class="list"]/ul/li')  #利用xpath解析,即在源代码中匹配;并存储在数组中
6.循环爬取图片
i=1
n=1	#b
while 1:
    for pic in friends_list:    #将获得的数据地址全部循环读取一遍
        num =len(friends_list)
        names = pic.xpath('./a/img/@alt')  #获取图片的名称
        imgs = pic.xpath('./a/img/@src')   #将地址对应的网址获取到

        for name in names:
            print(name)
        for img in imgs:
            print(img)
            # 定义要创建的目录
            dirs = "./mv/"
            # 调用函数
            if not os.path.exists(dirs):
                os.makedirs(dirs)
            urlretrieve(img,'./mv/'+str(name)+'.jpg') #将img对应的图片下载到本地
            print('<%s>下载完毕'%name+'----------------------------------------------------------------------------------------------\n')
            i=i+1
            time.sleep(0.2)   #休眠一秒

        if i==num and n==1:
            next = data.xpath('.//div[@class="page"]/a[@class="prev"]/@href')[0]
            url= domains+next
            response = requests.get(url, headers=headers)  # 发起请求(地址,请求头)
            response.encoding = 'gbk'  # 解决乱码
            # 解析网址
            data = etree.HTML(response.text)  # 获取响应源代码,并存储
            friends_list = data.xpath('.//div[@class="list"]/ul/li')  # 利用xpath解析,即在源代码中匹配;并存储在数组中
            i=1
            n=0	#标记
        elif i==num:
            next = data.xpath('.//div[@class="page"]/a[@class="prev"][2]/@href')[0]
            url = domains + next
            response = requests.get(url, headers=headers)  # 发起请求(地址,请求头)
            response.encoding = 'gbk'  # 解决乱码
            # 解析网址
            data = etree.HTML(response.text)  # 获取响应源代码,并存储
            friends_list = data.xpath('.//div[@class="list"]/ul/li')  # 利用xpath解析,即在源代码中匹配;并存储在数组中
            i = 1

代码下载:https://download.csdn.net/download/weixin_52493010/20360664?spm=1001.2014.3001.5501

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值