Python3爬虫编程学习笔记（五）实战：爬取安居客房屋信息之 XPath学习

最新推荐文章于 2021-08-31 16:39:25 发布

原创

最新推荐文章于 2021-08-31 16:39:25 发布 · 1.7k 阅读

CC 4.0 BY-SA版权

文章标签：

lxml库之XPath语法
爬取到网页源代码，并不是目的，爬虫的最终目的是采集到我们想要的数据，那么就必须进行数据提取。一般来说是利用Python自带的正则表达式re模块进行提取，无奈我只学到了表皮，为了不影响兴趣，学习路径定为lxml库的XPath语法–>BeautifulSoupy库–>正则表达式。

百度百科：XPath即为XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。

XPath语法可用来在XML和HTML文档中对标签元素和属性进行遍历。所以在做爬虫时，完全可以使用XPath 来进行相应的信息提取。

在Python中使用XPath语法需要安装lxml库：

pip install lxml

浏览器	辅助工具
Chrome浏览器	XPath Helper插件（扩展程序）
FireFox浏览器	try XPath插件

符号	说明
nodename	选取名称为nodname节点的所有子节点，如：head、body、div
/	如果是在最前面，代表从根节点选取，否则选择某节点下的某个节点，如：/html/body
//	从全局节点中选择节点（子孙节点），随便在哪个位置，如：//head//script 或 //div
@	选取拥有@example的所有节点的属性，如：//div@id，div中必须要有id属性
.	表示当前节点，“./”代表是当前节点的子节点
`..`	表示当前节点的父节点，“`..`/a”代表a是孙节点

示例	说明
//body/	获取所有节点
div@	获取所有拥有属性的div元素

//div[@class="job_bt"]|//div[@class="job_detail"]

//div[@class='abc' and id!='kkk']

divs=html.xpath('//div[@class="abc"]')

1）/和//的区别：/代表只获取直接子节点，//获取子孙节点，一般情况下，//用得比较多。
2）contains：有时候某个属性中包含了多个值，那么可以使用’contains()'函数：

divs=html.xpath('//div[contains(@class，"job_detail")]')

3）谓语中的下标是从1开始的，不是从0开始的，列表、集合的下标才是从0开始的。
4）使用"xpath"语法，应该使用"Element.xpath()"方法来执行，返回永远是一个列表：

trs=html.xpath('//tr[position()>1]')