XPath的使用

16 篇文章 1 订阅
10 篇文章 0 订阅

前言

Python爬虫框架-scrapy基础之XPath。

一、什么是XPath

XPath: 用来在xml中查找指定的元素,是一种路径表达式
常用的路径表达式:

  • /: 从根节点选取
  • //: 不考虑位置(若多人匹配则多选)
  • ./:从当前节点往下找
  • @: 选择属性

无论是绝对路径和相对路径,/后面必须为元素的名称或者*

二、XPath的使用----常用的定位策略

这里不详细介绍了,想搭建的小伙伴可查看这篇文章
~~XPath的使用~~

  1. 路径

    • 绝对路径:
      语法:以单斜杠开头逐级开始编写,不能跳级。 如:/html/body/div/p[1]/input
    • 相对路径:
      语法:以双斜杠开头,双斜杠后边跟元素名称,不知元素名称可以使用代替。
      如: //input ;//
  2. 路径结合属性
    语法:在Xpath中,所有的属性必须使用@符号修饰 如://*[@id=‘id值’]

  3. 路径结合逻辑(多个属性)
    语法:使用逻辑运行算符 与----and、或-----or、非----not()
    如: //div[not(starts-with(@class,“abc”))]
    //*[@id=“id值” and @属性=‘属性值’]

  4. 路径结合层级
    语法:利用路径层级,如//*[@id=‘父级id属性值’]/input

提示:
1. 一般见识使用指定标签名称,不使用代替,效率比较慢。
2. 无论是绝对路径和相对路径,/后面必须为元素的名称或者

3. 扩展:在工作中,如果能使用相对路径绝对不使用绝对路径。

三、Xpath 扩展

//*[text()='XXX'] 
# 定位文本值等于 XXX 的元素 提示:一般适合p标签,a标签
//*[contains(@属性,'xxx')] 
# 定位属性包含 xxx 的元素
//*[starts-with(@属性,'xxx')] 
# 定位属性以 xxx 开头的元素

划重点

可直接进入本人博客查看,欢迎留言ฅ՞•ﻌ•՞ฅ
yueluo’s Blog

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值