python 数据xpath

本文介绍了XPath在Python爬虫中的使用规则,包括根标签、父标签、子标签和兄弟标签的概念,以及XPath路径表达式的各种选择方式,如选取特定属性、筛选匹配条件等。同时,展示了如何在Python中使用lxml库进行XPath解析和数据提取。
摘要由CSDN通过智能技术生成

#爬虫数据筛选-XPath
#spider lxml 中 xpath的使用规则
#安装 pip install lxml
#根标签:在标记语言中,处于最外层的一个标签就是根标签.
for example <html>.
#父标签:与子标签对应,内部包含了其他元素,此标签就是内部标签的父标签 .
for example <html>就是<head>的父标签 ;<head>就是<title>的父标签.
#同理 head title就是 html head 的子标签.
兄弟标签:两个或多个处于同一级别的标签,有相同的父标签.

<h1>和<table>;<head>和<body>;<table>和两个<tr>也是兄弟标签.

#路径表达式|结果
/html|选取html元素的所有子节点
注释:假如路径起始于正斜杠,那么此路径始终代表某元素的绝对路径
table/tr/td|选取属于table子元素的所有td元素
//div|//table|选取div或者table下的所有节点
//table|选取所有table子元素,而不管他们在文档中的位置
html//div|选取html元素后代所有div元素,而不管他们在html之下什么位置
//@herf|选取名为href的所有属性
#标签筛选查询匹配
//table/tr[1] |选取属于 table子元素的第一个tr元素
//table/tr[last()] |选取属于 table子元素的最后一个tr元素
//table/tr[last()-1]|选取属于 table子元素的倒数第二个tr元

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值