Python xpath 详解一(非网络文章复制粘贴)

之前有看到好多关于xpath用法的文章,大多都是复制粘贴,一些生硬的表格,生硬的例句,对初学者非常不友好。整理这篇文章,旨在帮助更多的初学者能快速上手。


示例链接:http://auto.sohu.com/

一、xpath 路径

下面以获取主菜单的按钮文本,那么路径关系如图:

在这里插入图片描述
![在这里插入图片描述](https://img-blog.csdnimg.cn/20190722082910853.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dvc2luZA==,size_16,color_FFFFFF,t_70


那么要提取按钮文本,最完整的路径,也叫绝对路径,也就是图中蓝色路径:

response.xpath('/html/body/div[@class="header"]/div[@class="area"]/div[@class="head-nav left"]/ul/li/a/text()')

在这里插入图片描述
这里的[@class=“header”] 可以理解为,对支点的一个标识,更加准确的定位。
如果我们只是写

response.xpath('/html/body/div/div/div/ul/li/a/text()')

提取结果就多了很多。

在这里插入图片描述
在这里插入图片描述
二、实际爬虫很少使用这种绝对路径的书写,而是使用 “//” 进行路径匹配,它主要依靠元素ID、class的等属性值来定位路径,

response.xpath('//div[@class="head-nav left"]/ul/li/a/text()')

这里就通过div的class属性值及相对的路径关系,就可以提取到菜单文本了。
在这里插入图片描述

该方式通常通过,父支点的特征、父支点的父支点的特征…,来防止提取到非目标数据。

三、“[]”的模糊匹配,比如图中这样的几个类似支点,当然可以写5个xpath路径。
在这里插入图片描述
更好的方法是使用 contanins 模糊匹配:

response.xpath('//div[contains(@id,"tms_t_")]')
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值