2020-12-19

最新推荐文章于 2024-09-15 22:31:42 发布

yzwnbxx

最新推荐文章于 2024-09-15 22:31:42 发布

阅读量112

点赞数

分类专栏：代码学习文章标签： python

本文链接：https://blog.csdn.net/yzwnbxx/article/details/111407650

版权

代码学习专栏收录该内容

16 篇文章 0 订阅

订阅专栏

文章目录

一、数据解析之xpath项目工程应用
二、代码分析
三、运行结果
总结

一、数据解析之xpath项目工程应用

今天我们进行xpath数据解析的工程应用——解析下载图片数据

二、代码分析

1.代码部分

代码如下：

#解析下载图片数据
import requests
from lxml import etree
import os
if __name__ == "__main__":
    #获取网页源数据
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36'
    }
    url = 'http://pic.netbian.com/4kmeinv/'
    respones = requests.get(url=url, headers=headers)
    r_text = respones.text
    #实例化一个etree对象
    tree = etree.HTML(r_text)
    list_img = tree.xpath('//div[@class="slist"]/ul/li')
    #建立存储文件夹
    if not os.path.exists('./picLibs'):
        os.mkdir('./picLibs')
    #遍历列表解码数据
    for li in list_img:
        img_src = 'http://pic.netbian.com'+li.xpath('./a/img/@src')[0]
        img_name = li.xpath('./a/img/@alt')[0] + '.jpg'
        #通用处理中文乱码的解决方案
        img_name = img_name.encode('iso-8859-1').decode('gbk')
        #请求图片进行格式化存储
        img_data = requests.get(url=img_src, headers=headers).content
        img_path = './picLibs'+img_name
        with open(img_path, 'wb') as fp:
            fp.write(img_data)
            print(img_name, '下载成功')

2.分析

1.步骤分析

代码编写思路：
1.通过指定的url获取数据源
2.实例化一个etree对象将获取的数据源码加载到etree对象中并通过xpath表达式对相应的数据源码进行解析存储到列表中
3.然后建立存储文件夹
4.对列表中的元素进行遍历、编码、存储。

2.部分代码分析

#建立存储文件夹
    if not os.path.exists('./picLibs'):
        os.mkdir('./picLibs')

如果当前目录下没有picLibs文件夹，则在当前目录建立一个picLibs文件夹

#通用处理中文乱码的解决方案
        img_name = img_name.encode('iso-8859-1').decode('gbk')

一种通用处理中文乱码的解决方案，在试用其他如utf-8编码失败的情况下，可以试试他。

#请求图片进行格式化存储
        img_data = requests.get(url=img_src, headers=headers).content
        img_path = './picLibs'+img_name
        with open(img_path, 'wb') as fp:
            fp.write(img_data)
            print(img_name, '下载成功')