Python3爬虫(2)xpath模块代替re正则模块的使用

本文介绍了Python3爬虫中如何使用XPath替代正则表达式解析HTML,通过一个58同城租房信息爬取的实例,详细阐述了XPath的使用方法和爬取流程,包括获取房源列表、解析房源详情、存储房源信息和图片。
摘要由CSDN通过智能技术生成

前言


最近学习了一下python3.5中爬虫的原理套路!

之前写demo的时候,获取html源码后一直在使用python自带的re模块来用正则表达式匹配数据。

不得不说!正则很强大!(强大的.*?,笑),各种复杂的情况下都可以匹配的到,但是写法非常灵活,每个人的思维模式不一样,写出来也就不一样,对于没有接触过正则表达的同学来说,学习成本还是需要一写的!


所以今天来说一下对于我这种正则小白的福音!python下提供的一个基于正则的模块,xpath,使用节点的概念来匹配你所获取到的页面源码!超级好用!

[xpath菜鸟教程学习传送门]:点击打开链接


今天用xpath写了一发get 58同城租房信息的demo,下面附上流程和code




A.实现思路


58同城首页->租房->北京出租

首先我们得到的是一个这样的页面




<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值