爬虫新手,简单爬取巴士管家查询班次信息

学着python三个多月了,开始到爬虫部分,昨天手痒,写了个巴士管家的spider,来爬取其班次信息,今天来给大家分享一下小工具的开发过程。

    整个架构其实为两部分,最主要的就是爬取巴士管家的过程,另外就是gui界面,采用的是python的第三方库WXPython.

    (1)网页爬取

        网页爬取采用的工具是python3的urllib

    打开网页,进入开发者模式,点击网络,搜索车票。

捕捉到两个POST请求,查看两个POST请求的内容,发现其中的GetBusSchedules内容

POST的数据为departure、destination、departureDate三个数据,看来巴士管家的网站设计并没有进行反扒处理,好了,接下来进行数据爬取

构建字典post_data存放请求所需要的数据,用urllib的request函数进行post请求,要注意的是传回的是一个json串,不进行loads操作,print出来的数据会显示乱码,最后按顺序读取其中的数据。

爬去成功!!!

此处为源码下载,为了方便使用,将项目文件用Pyinstaller打包成可执行文件,位置在dist->bus_exe->bus_gui.exe点击打开链接

     



评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值