python爬虫之网站xpth实战

最新推荐文章于 2024-04-07 08:00:00 发布

陌小

最新推荐文章于 2024-04-07 08:00:00 发布

阅读量1k

点赞数

分类专栏： python 爬虫 xpath 文章标签： xpath python html

本文链接：https://blog.csdn.net/weixin_44356081/article/details/109153581

版权

本文介绍了XPath作为HTML和XML页面元素筛选的语法，包括选取节点、谓语、通配符和选取若干路径等核心概念，并通过下载lxml库和解析网站的实际案例，展示了XPath在Python爬虫中的应用。

摘要由CSDN通过智能技术生成

python爬虫之网站xpth实战

python爬虫之网站xpth使用

前言

在我认知的爬虫领域有很多爬虫查找信息的语言和库，比如我们爬取网站是会requests请求网页的信息，通过正则，xpath，beautifulsoup，pyquery等相关库，这里我们详细的解说xpath的使用和一个实战案例

提示：以下是本篇文章正文内容，下面案例可供参考

一、xpath是什么？

xpath是一种筛选html或者xml页面元素的【语法】

二、xpath语法

（1）选取节点
　　　　　　　　nodename — 选取此标签及其所有字标签。
　　　　　　　　/----从根节点开始选取。
　　　　　　　　// ----从任意节点开始，不考虑他们的位置。
　　　　　　　　//book—不管book位置，在xml中取出所有的book标签。
　　　　　　　　.----当前节点开始找
　　　　　　　　…----从父节点
　　　　　　　　@ —选取属性
　　　　　　　　text()—选取内容
　　　　（2）谓语：起限定的作用，限定他前面的内容。
　　　　　　　　[]写在谁的后面，就限定谁，一般用于限定元素或者标签。
　　　　　　　　//book[@class=‘abc’]
　　　　　　　　常见的谓语：
　　　　　　　　　　[@class] ----选取有class
　　　　　　　　　　[@class=‘abc’] —选取class属性为abc的节点。
　　　　　　　　　　[contains(@href,‘baidu’)] —选取href属性包含baidu的标签
　　　　　　　　　　[1] —选取第一个
　　　　　　　　　　[last()]—选取最后一个
　　　　　　　　　　[last()-1]—选取倒数第二
　　　　　　　　　　[position()>2]—跳过前两个。
　　　　　　　　　　book[price>30]
　　　　（3）通配符
　　　　　　　　* —匹配任意节点
　　　　　　　　@* —匹配任意属性
　　　　（4）选取若干路径
　　　　　　 —左边和右边的xpath选的内容都要—and
上述的官方文档解释可能看不懂，没事下面由我做一个案例进行解释一下