最近在整理项目,发现了一个简单又经典的接单项目,很有参考学习价值。(源码放在最后)
那个客户要求爬取的是【新榜】这个网站,主要是微博这一块的数据,一起来操作一下:
当时客户还要求写明教程,所以我把每一行代码是什么意思都写上了注释。代码如下:
这里我们可以看到时间是去年的五月份的了,所以网站有更改是属于正常现象。
其实这个项目最主要的点就是md5信息摘要算法的加密,也就是(xyz),那么我们在这里找到了xyz的加密位置,并把代码扣下来之后放到了Demo.js项目中。
注意,这一块不是我写的代码,而是他网站中自己的代码,我们所做的就只是把它给扣下来,并写入了python文件中。
最后获取到对应的数据就OK了,轻松拿下~~~