对于某些人(我)来说,影响工作效率,导致我不能按时下班的,除了领导英明的决策,还有另外一个罪魁祸首——知乎。
作为高知分子的集中地,知乎里面的人个个都是人才,说话又好听。然而知乎作为一个“时间杀手”,看看这个回答,逛逛那个live,不知不觉一整天的时间就过去了,而自己的工作却没有一点进展。
直到某一天我加班到我想,如果有一种工具能过滤掉那些过分诱人的消息,只留下我想要的东西,那我不就能摆脱知乎这个时间杀手了?
而爬虫似乎可以实现我的“天才构想。”
说到爬虫就不得不提起Python,毕竟用Python写个爬虫是最常规的操作。于是我打开电脑,调用request库,照着网上的教程一通操作。结果如下:
在知乎强大的反爬机制下,我不出意外的失败了。
看到中间那个“400”了吗?它其实是一个大写加粗的“滚”。
看来我这半路出家的野路子是搞不定了,只好求助同在熬夜“加班”(追剧)的技术大神。
大神听罢我的需求微微一笑说:“简单,你只需要解析需要信息的位置,然后再嵌套一个爬问题的循环,并且还需搞个写入文件的函数,此外,为了效果能够酷炫一点,最好再加入交互体验过程,对了!点赞的筛选也不能忘记,还有就是要考虑一下模糊搜索。”
OK,听起来一点也不复杂。
后来在大神的指导手把手教学下,仅仅半个小时