【Python爬虫】数据解析：xpath

最新推荐文章于 2024-04-07 08:00:00 发布

今天又是困顿的一天

最新推荐文章于 2024-04-07 08:00:00 发布

阅读量274

点赞数 2

文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43814935/article/details/110766690

版权

xpath属于xml/html解析数据的一种方法，基于元素（Element）的树形结构（Node>Element）.选择某一元素时，根据原始的路径选择，如/html/head/title获取<title>标签。安装包pip install lxml

绝对路径

从根标签开始，按tree结构依次向下查询。

如/html/body/table/tbody/tr。

相对路径

相对路径可以有以下写法

路径写法
- /依次查找
- //间接查找
- ./从当前元素下查找
- .//从当前元素的间接子节点查找
相对于整个文档
```
//img
```
查找处文档中所有的<img>标签元素
相对于当前节点
```
//table
```
假如当前节点是<table>,查找它的<img>的路径的写法
```
.//img
```

数据提取

提取文本
```
//title/text()
```
提取属性
```
//img/@href
```

位置条件

获取网页中的数据类型与字符集，获取第一个<meta>标签

//meta[1]//@content

获取最后一个<meta>标签

//meta[last()]//@content

获取倒数第二个<meta>标签

//meta[position()-2]//@content

获取前2个<meta>标签

//meta[position()< 3]//@content

属性条件

查找class为circle-img的<img>

//img[@class='circle-img']

查找class为xx1以及name为xx2的<li>(多个属性的且的关系)

//li[@class="xx1" and @name="xx2"]

查找所有标签的class属性

//@class

同时获取title和price两个标签

//title | //price

模糊条件

//div[contains(@class,"page")] 查找class属性包含page的所有div标签
//div[start-with(@class,"box")] 第一个class的属性值为box的div标签
//div[end-with(@class,"clearfix")] 最后一个class的属性值为clearfix的div标签

今天又是困顿的一天

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
5
评论
【Python爬虫】数据解析：xpath

xpath属于xml/html解析数据的一种方法，基于元素（Element）的树形结构（Node>Element）.选择某一元素时，根据原始的路径选择，如/html/head/title获取<title>标签。安装包pip install lxml绝对路径从根标签开始，按tree结构依次向下查询。如/html/body/table/tbody/tr。相对路径相对路径可以有以下写法路径写法/依次查找//间接查找./从当前元素下查找.//从当前元素的间接子节点查找
复制链接

扫一扫

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。