python模块系列(一)之文档解析利器lxml

引言:

lxml是基于xpath语法的,也就是说如果你掌握了xpath语法,那么对于你学习其他工具解析文档都是很容易的事。比如前面我们介绍的Scrapy框架就是采用xpath语法进行文档解析。废话不多说,直入主题。

一.lxml安装步骤

1.安装python(这里就不具体阐述了,见我之前文章)

2.使用easy_install工具下载lxml模块(尤其在linux中)

注:python 3.x之后就集成了pip,easy_install 等工具可以用来直接下载python所需的模块。然后在这里我使用的是py 3.4.3,当使用pip下载lxml会出现各种依赖问题,所以为了避免这些问题我们直接使用easy_install工具下载。

二.xpath语法详解(耐心看完,不一定全部记住,便于以后随时查找)

xpath是一门在xml文档中查找信息的语言,可用于查找元素和属性。

1.选取节点
xpath使用路径表达式在xml文档中选取节点,节点是通过沿着路径或者step来选取的。
下面列出了最常用的路径表达式

表达式 描述 实例 解释
/ 从根节点出发开始定位 xpath(“/a”) 选择根节点下的所有a
// 从任意节点出发开始定位 xpath(“//a”) 选择所有的a节点
. 从当前节点出发开始定位 xpath(“./a”) 选择当前节点下的所有a节点
.. 从当前节点的父节点出
  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值