前言
最近学习了一下python3.5中爬虫的原理套路!
之前写demo的时候,获取html源码后一直在使用python自带的re模块来用正则表达式匹配数据。
不得不说!正则很强大!(强大的.*?,笑),各种复杂的情况下都可以匹配的到,但是写法非常灵活,每个人的思维模式不一样,写出来也就不一样,对于没有接触过正则表达的同学来说,学习成本还是需要一写的!
所以今天来说一下对于我这种正则小白的福音!python下提供的一个基于正则的模块,xpath,使用节点的概念来匹配你所获取到的页面源码!超级好用!
[xpath菜鸟教程学习传送门]:点击打开链接
今天用xpath写了一发get 58同城租房信息的demo,下面附上流程和code
A.实现思路
58同城首页->租房->北京出租
首先我们得到的是一个这样的页面