学着python三个多月了,开始到爬虫部分,昨天手痒,写了个巴士管家的spider,来爬取其班次信息,今天来给大家分享一下小工具的开发过程。
整个架构其实为两部分,最主要的就是爬取巴士管家的过程,另外就是gui界面,采用的是python的第三方库WXPython.
(1)网页爬取
网页爬取采用的工具是python3的urllib
打开网页,进入开发者模式,点击网络,搜索车票。
捕捉到两个POST请求,查看两个POST请求的内容,发现其中的GetBusSchedules内容
POST的数据为departure、destination、departureDate三个数据,看来巴士管家的网站设计并没有进行反扒处理,好了,接下来进行数据爬取
构建字典post_data存放请求所需要的数据,用urllib的request函数进行post请求,要注意的是传回的是一个json串,不进行loads操作,print出来的数据会显示乱码,最后按顺序读取其中的数据。
爬去成功!!!
此处为源码下载,为了方便使用,将项目文件用Pyinstaller打包成可执行文件,位置在dist->bus_exe->bus_gui.exe点击打开链接