python爬虫之网站xpth实战
python爬虫之网站xpth使用前言
在我认知的爬虫领域有很多爬虫查找信息的语言和库,比如我们爬取网站是会requests请求网页的信息,通过正则,xpath,beautifulsoup,pyquery等相关库,这里我们详细的解说xpath的使用和一个实战案例提示:以下是本篇文章正文内容,下面案例可供参考
一、xpath是什么?
xpath是一种筛选html或者xml页面元素的【语法】
二、xpath语法
(1)选取节点
nodename — 选取此标签及其所有字标签。
/----从根节点开始选取。
// ----从任意节点开始,不考虑他们的位置。
//book—不管book位置,在xml中取出所有的book标签。
.----当前节点开始找
…----从父节点
@ —选取属性
text()—选取内容
(2)谓语:起限定的作用,限定他前面的内容。
[]写在谁的后面,就限定谁,一般用于限定元素或者标签。
//book[@class=‘abc’]
常见的谓语:
[@class] ----选取有class
[@class=‘abc’] —选取class属性为abc的节点。
[contains(@href,‘baidu’)] —选取href属性包含baidu的标签
[1] —选取第一个
[last()]—选取最后一个
[last()-1]—选取倒数第二
[position()>2]—跳过前两个。
book[price>30]
(3)通配符
* —匹配任意节点
@* —匹配任意属性
(4)选取若干路径
—左边和右边的xpath选的内容都要—and
上述的官方文档解释可能看不懂,没事下面由我做一个案例进行解释一下