python 爬虫 xpath 详解

最新推荐文章于 2025-03-20 10:42:24 发布

听闻F

最新推荐文章于 2025-03-20 10:42:24 发布

阅读量1.5k

点赞数 3

分类专栏： python爬虫文章标签： python xpath

本文链接：https://blog.csdn.net/weixin_44029791/article/details/115539094

版权

1 篇文章

订阅专栏

本文详细介绍了使用Python的XPath进行网页爬虫的技术要点，包括层级定位、属性定位、索引定位、文本和属性的获取方法等。同时对比了XPath与正则表达式、BeautifulSoup在数据解析方面的优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

from lxml import etree

tree=etree.parse('test.html') #将网页源码解析并加载到了该对象中

r=tree.xpath('/html/body/div')
#'/html'：根目录开始查找
#r:返回值是一个列表
#查找的是全部符合表达式的结果

r=tree.xpath('/html//div')
#'//'中间代表多层级，查找html标签下的所有div标签

r=tree.xpath('//div')
#从任意位置寻找div标签，找到源码中所有div标签

r=tree.xpath('//div[@class="song"]')
#获取的是<div class="song">属性定位</div>
#xpath()方法返回的始终是一个列表

r=tree.xpath('//div[@class="song"]/p')
#获取的是<div class="song"><p>属性定位</p></div>
#获取div属性是class="song"的直系p标签

r=tree.xpath('//div[@class="song"]/p[3]')
#获取div属性是class="song"的直系p标签的第三个
#索引是从1开始的

r=tree.xpath('//div[@class="song"]/li[5]/a/text()')[0]
#直接/text()就可以取到文本
#但是返回值是列表
#结尾加上[0]就可以取到
#获取标签直系文本内容

r=tree.xpath('//li[7]//text()')
#获取标签下所有文本内容
#返回的是列表

r=tree.xpath('//div[@class="song"]/img/@src')
# /@属性名 即可直接取到属性值
# 返回的是列表

r=tree.xpath('//li[7]//text() | //li[5]//text()')
#获取两种表达式的结果，用|分开xpath表达式

python爬虫中需要数据解析，一般用到的是正则、BeautifulSoup、xpath。其中xpath、正则是各种语言通用的，BeautifulSoup是专属于python的。正则解析的话略显复杂，建议工作还是日常首选xpath。