Python3爬虫（2）xpath模块代替re正则模块的使用

最新推荐文章于 2022-10-14 11:02:23 发布

wiz_333

最新推荐文章于 2022-10-14 11:02:23 发布

阅读量2.5k

点赞数 1

分类专栏： Python3.5爬虫文章标签：爬虫 xpath python3

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wizblack/article/details/79793811

版权

本文介绍了Python3爬虫中如何使用XPath替代正则表达式解析HTML，通过一个58同城租房信息爬取的实例，详细阐述了XPath的使用方法和爬取流程，包括获取房源列表、解析房源详情、存储房源信息和图片。

摘要由CSDN通过智能技术生成

前言

最近学习了一下python3.5中爬虫的原理套路！

之前写demo的时候，获取html源码后一直在使用python自带的re模块来用正则表达式匹配数据。

不得不说！正则很强大！(强大的.*?，笑)，各种复杂的情况下都可以匹配的到，但是写法非常灵活，每个人的思维模式不一样，写出来也就不一样，对于没有接触过正则表达的同学来说，学习成本还是需要一写的！

所以今天来说一下对于我这种正则小白的福音！python下提供的一个基于正则的模块，xpath，使用节点的概念来匹配你所获取到的页面源码！超级好用！

[xpath菜鸟教程学习传送门]:点击打开链接

今天用xpath写了一发get 58同城租房信息的demo,下面附上流程和code

A.实现思路

58同城首页->租房->北京出租

首先我们得到的是一个这样的页面

<

最低0.47元/天解锁文章

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。