引言:
lxml是基于xpath语法的,也就是说如果你掌握了xpath语法,那么对于你学习其他工具解析文档都是很容易的事。比如前面我们介绍的Scrapy框架就是采用xpath语法进行文档解析。废话不多说,直入主题。
一.lxml安装步骤
1.安装python(这里就不具体阐述了,见我之前文章)
2.使用easy_install工具下载lxml模块(尤其在linux中)
注:python 3.x之后就集成了pip,easy_install 等工具可以用来直接下载python所需的模块。然后在这里我使用的是py 3.4.3,当使用pip下载lxml会出现各种依赖问题,所以为了避免这些问题我们直接使用easy_install工具下载。
二.xpath语法详解(耐心看完,不一定全部记住,便于以后随时查找)
xpath是一门在xml文档中查找信息的语言,可用于查找元素和属性。
1.选取节点
xpath使用路径表达式在xml文档中选取节点,节点是通过沿着路径或者step来选取的。
下面列出了最常用的路径表达式
表达式 | 描述 | 实例 | 解释 |
---|---|---|---|
/ | 从根节点出发开始定位 | xpath(“/a”) | 选择根节点下的所有a |
// | 从任意节点出发开始定位 | xpath(“//a”) | 选择所有的a节点 |
. | 从当前节点出发开始定位 | xpath(“./a”) | 选择当前节点下的所有a节点 |
.. | 从当前节点的父节点出 |