Python爬虫(二)数据解析Xpath

最新推荐文章于 2024-05-02 10:55:42 发布

男神的世界不拥挤

最新推荐文章于 2024-05-02 10:55:42 发布

阅读量151

点赞数

分类专栏： requests

本文链接：https://blog.csdn.net/weixin_44669124/article/details/118486745

版权

requests 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

xpath的使用

安装
-pip install lxml
解析原理(流程)
-实例化一个etree对象,将需要解析的数据加载到改对象中
-调用etree对象中的xpath方法结合不同的xpath表达式进行标签定位和文本数据提取
etree对象实例化
- etree.parse(“FilePath”):将本地数据加载到etree对象中
- etree.HTML(page_text):将爬取的数据加载到该对象中
html中所有标签是遵循了树状结构
xpath方法的返回值是一个列表

使用

标签定位
- 最左侧/：表示从根标签开始定位
- 最左侧//:任意标签开始定位
- 非最左侧//：表示多个层级
- 属性定位://tagName[@attrName = ‘Value’]
- 索引定位:tagNmae[index],index索引从1开始
- 模糊匹配:
- //div[contains(@class,‘ng’)]
- //div[starts-with(@class,‘ta’)]
取属性
- @attrName

实战:爬取所有城市

from lxml import etree
# 目的：使得xpath表达式具有更强的通用性
url = 'https://www.aqistudy.cn/historydata/'
page_text = requests.get(url,headers=headers).text

tree = etree.HTML(page_text)
# hot_cities = tree.xpath('//div[@class="bottom"]/ul/li/a/text()')
all_cities = tree.xpath('//div[@class="bottom"]/ul/div[2]/li/a/text() | //div[@class="bottom"]/ul/li/a/text()')
print(all_cities)

男神的世界不拥挤

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫(二)数据解析Xpath

xpath的使用安装-pip install lxml解析原理(流程)-实例化一个etree对象,将需要解析的数据加载到改对象中-调用etree对象中的xpath方法结合不同的xpath表达式进行标签定位和文本数据提取etree对象实例化- etree.parse(“FilePath”):将本地数据加载到etree对象中- etree.HTML(page_text):将爬取的数据加载到该对象中html中所有标签是遵循了树状结构xpath方法的返回值是一个列表使用标签定位
复制链接

扫一扫