xpath实战01

最新推荐文章于 2023-07-07 17:18:00 发布

是zmj

最新推荐文章于 2023-07-07 17:18:00 发布

阅读量422

点赞数 2

分类专栏：爬虫 python学习文章标签： python

本文链接：https://blog.csdn.net/zmj11_/article/details/116133276

版权

python学习同时被 2 个专栏收录

33 篇文章 7 订阅

订阅专栏

爬虫

5 篇文章 0 订阅

订阅专栏

经过了前面的讲解你是否已经能够熟练使用xpath表达式对数据进行解析了呢？
下面给出我们上次布置的任务爬取某荣耀的英雄列表的代码供大家参考学习改进

from lxml import html
import requests
import os
etree=html.etree
#目标页面的url
url='https://pvp.qq.com/web201605/herolist.shtml'
headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.128 Safari/537.36 Edg/89.0.774.77'
}
#用requests库发送请求，对请求结果调用content属性获取相应内容
page_content=requests.get(url=url,headers=headers).content
#将响应内容传入HTML方法中
tree=etree.HTML(page_content)
#用xpath表达式分析至每个li标签
hero_list=tree.xpath('//ul[@class="herolist clearfix"]/li')
#如果没有这个文件夹就创建
if not os.path.exists('heroLibs'):
    os.mkdir('heroLibs')
#对列表中的每个li标签进行遍历
for one in hero_list:
    #获取每张图片的url，src中的url并不完整，手动补全
    img_url="https:"+one.xpath('./a/img/@src')[0]
    #对每个获取的url发起请求获取新的相应内容
    img_content=requests.get(url=img_url,headers=headers).content
    #获取英雄名字
    hero_name=one.xpath('./a/text()')[0]
    #编写文件名字
    filename='heroLibs/'+hero_name+'.jpg'
    #打开文件
    with open(filename,'wb') as fp:
        #保存图片
        fp.write(img_content)
        print("图片存储成功！")
#文件操作完毕后及时关闭
fp.close()

这里需要注意的点就是：
1.xpath解析后获取的src并不是完整的图片路径需要手动补全
2.获取了li标签列表后对每个li标签遍历时需要从当前li标签的位置解析需要使用’./'从当前位置开始解析
3.文件使用完后要及时关闭
运行结果展示如下：
在这里插入图片描述

自己编写的过程中遇到问题欢迎留言和私信，拜拜咯。

是zmj

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
xpath实战01

经过了前面的讲解你是否已经能够熟练使用xpath表达式对数据进行解析了呢？下面给出我们上次布置的任务爬取某荣耀的英雄列表的代码供大家参考学习改进from lxml import htmlimport requestsimport osetree=html.etree#目标页面的urlurl='https://pvp.qq.com/web201605/herolist.shtml'headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0;
复制链接

扫一扫