python爬虫（图片）

最新推荐文章于 2024-05-04 16:08:54 发布

江丶影

最新推荐文章于 2024-05-04 16:08:54 发布

阅读量274

点赞数

文章标签： python

本文链接：https://blog.csdn.net/weixin_52493010/article/details/118884728

版权

python爬虫（图片）

1. 需要导入模块

from urllib.request import  urlretrieve #提供图片地址 下载图片
import requests #用来模拟浏览器发送请求
from lxml import etree  #数据预处理
import time #让程序正常的休眠几秒
import  os #创建文件夹

2. 代码

1. 定义url：指定我们要爬取的网页

# 请求网站
domains = 'http://www.netbian.com'  #后面用
url='http://www.netbian.com/meinv/'  #目标网址

2. 定义请求头headers：模拟浏览器

headers={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4442.4 Safari/537.36'
}   #模拟浏览器，默认为"爬虫"的头

3.发起请求

response = requests.get(url,headers=headers)    #发起请求（地址，请求头）
response.encoding = 'gbk' #解决乱码

4.解析网址之获取响应代码

#解析网址
data = etree.HTML(response.text)    #获取响应源代码，并存储

5.解析网址之匹配数据（第一层地址：不是数据链接）

friends_list=data.xpath('.//div[@class="list"]/ul/li')  #利用xpath解析，即在源代码中匹配；并存储在数组中

6.循环爬取图片

i=1
n=1	#b
while 1:
    for pic in friends_list:    #将获得的数据地址全部循环读取一遍
        num =len(friends_list)
        names = pic.xpath('./a/img/@alt')  #获取图片的名称
        imgs = pic.xpath('./a/img/@src')   #将地址对应的网址获取到

        for name in names:
            print(name)
        for img in imgs:
            print(img)
            # 定义要创建的目录
            dirs = "./mv/"
            # 调用函数
            if not os.path.exists(dirs):
                os.makedirs(dirs)
            urlretrieve(img,'./mv/'+str(name)+'.jpg') #将img对应的图片下载到本地
            print('<%s>下载完毕'%name+'----------------------------------------------------------------------------------------------\n')
            i=i+1
            time.sleep(0.2)   #休眠一秒

        if i==num and n==1:
            next = data.xpath('.//div[@class="page"]/a[@class="prev"]/@href')[0]
            url= domains+next
            response = requests.get(url, headers=headers)  # 发起请求（地址，请求头）
            response.encoding = 'gbk'  # 解决乱码
            # 解析网址
            data = etree.HTML(response.text)  # 获取响应源代码，并存储
            friends_list = data.xpath('.//div[@class="list"]/ul/li')  # 利用xpath解析，即在源代码中匹配；并存储在数组中
            i=1
            n=0	#标记
        elif i==num:
            next = data.xpath('.//div[@class="page"]/a[@class="prev"][2]/@href')[0]
            url = domains + next
            response = requests.get(url, headers=headers)  # 发起请求（地址，请求头）
            response.encoding = 'gbk'  # 解决乱码
            # 解析网址
            data = etree.HTML(response.text)  # 获取响应源代码，并存储
            friends_list = data.xpath('.//div[@class="list"]/ul/li')  # 利用xpath解析，即在源代码中匹配；并存储在数组中
            i = 1

代码下载：https://download.csdn.net/download/weixin_52493010/20360664?spm=1001.2014.3001.5501

江丶影

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
python爬虫（图片）

python爬虫（图片）1. 需要导入模块from urllib.request import urlretrieve #提供图片地址下载图片import requests #用来模拟浏览器发送请求from lxml import etree #数据预处理import time #让程序正常的休眠几秒import os #创建文件夹2. 我们会写一个函数，完成后，通过调用执行3. 代码1. 定义url：指定我们要爬取的网页# 请求网站domains = 'http://www
复制链接

扫一扫