前言
Python爬虫框架-scrapy基础之XPath。
一、什么是XPath
XPath
: 用来在xml中查找指定的元素,是一种路径表达式
常用的路径表达式:
/
: 从根节点选取//
: 不考虑位置(若多人匹配则多选)./
:从当前节点往下找@
: 选择属性
无论是绝对路径和相对路径,/后面必须为元素的名称或者*
二、XPath的使用----常用的定位策略
这里不详细介绍了,想搭建的小伙伴可查看这篇文章
~~XPath的使用~~
-
路径
- 绝对路径:
语法:以单斜杠开头逐级开始编写,不能跳级。 如:/html/body/div/p[1]/input - 相对路径:
语法:以双斜杠开头,双斜杠后边跟元素名称,不知元素名称可以使用代替。
如: //input ;//
- 绝对路径:
-
路径结合属性
语法:在Xpath中,所有的属性必须使用@符号修饰 如://*[@id=‘id值’] -
路径结合逻辑(多个属性)
语法:使用逻辑运行算符 与----and、或-----or、非----not()
如: //div[not(starts-with(@class,“abc”))]
//*[@id=“id值” and @属性=‘属性值’] -
路径结合层级
语法:利用路径层级,如//*[@id=‘父级id属性值’]/input
提示:
1. 一般见识使用指定标签名称,不使用代替,效率比较慢。
2. 无论是绝对路径和相对路径,/后面必须为元素的名称或者
3. 扩展:在工作中,如果能使用相对路径绝对不使用绝对路径。
三、Xpath 扩展
//*[text()='XXX']
# 定位文本值等于 XXX 的元素 提示:一般适合p标签,a标签
//*[contains(@属性,'xxx')]
# 定位属性包含 xxx 的元素
//*[starts-with(@属性,'xxx')]
# 定位属性以 xxx 开头的元素
划重点
可直接进入本人博客查看,欢迎留言ฅ՞•ﻌ•՞ฅ
yueluo’s Blog