python 数据xpath

#爬虫数据筛选-XPath
#spider lxml 中 xpath的使用规则
#安装 pip install lxml
#根标签:在标记语言中,处于最外层的一个标签就是根标签.
for example <html>.
#父标签:与子标签对应,内部包含了其他元素,此标签就是内部标签的父标签 .
for example <html>就是<head>的父标签 ;<head>就是<title>的父标签.
#同理 head title就是 html head 的子标签.
兄弟标签:两个或多个处于同一级别的标签,有相同的父标签.

<h1>和<table>;<head>和<body>;<table>和两个<tr>也是兄弟标签.

#路径表达式|结果
/html|选取html元素的所有子节点
注释:假如路径起始于正斜杠,那么此路径始终代表某元素的绝对路径
table/tr/td|选取属于table子元素的所有td元素
//div|//table|选取div或者table下的所有节点
//table|选取所有table子元素,而不管他们在文档中的位置
html//div|选取html元素后代所有div元素,而不管他们在html之下什么位置
//@herf|选取名为href的所有属性
#标签筛选查询匹配
//table/tr[1] |选取属于 table子元素的第一个tr元素
//table/tr[last()] |选取属于 table子元素的最后一个tr元素
//table/tr[last()-1]|选取属于 table子元素的倒数第二个tr元

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值