爬虫(Python)
老身聊发少年狂
这个作者很懒,什么都没留下…
展开
-
考研调剂信息爬取,以“小木虫”为例
近年来,考研的形势一年严峻过一年,但除了少部分上岸的幸运儿,更多的还是陪跑的炮灰。高分落榜数见不鲜,调剂是重要的补救措施,但由于信息的不对称,很多人其实本可以有更好的选择却生生错过了机会。小木虫调剂,一个专门发布研究生复试调剂信息的版块,分为招生信息和学生信息两部分,考生关注的主要是前者。跟大部分论坛一样,搜索功能很坑,页面也不友好。为了更快、更精准地找到需要的调剂信息,考虑把招生信息逐条爬取...原创 2020-02-22 13:41:46 · 5791 阅读 · 5 评论 -
某小说论坛网爬虫演示
如果带着一定的目的去做事,尤其这目的还特别有意思的话,做事效率都会高很多。笔者能说学习爬虫的初衷是是为了更愉快地看小说吗?长佩是一个笔者特别喜欢逛的小说论坛,但时间久了发现有一些不太方便的地方,比如从目录页跳转到对应的正文后,并不会保留原来的目录页,如果后续看正文看到了20页,想回到刚刚的目录位置,我要不得一直返回,返回20次,要不就凭记忆从主页进去再次回去。再比如所有的文章在目录是动态排列的...原创 2019-09-05 09:42:43 · 5502 阅读 · 0 评论 -
爬取小说正文存为txt
每个小男生都有一个英雄梦,小弟环绕,大杀四方,最简单的实现方式,看种马小说肯定算一个了。咱家小弟最近在追一部连载,《修你妹的仙》,无奈网站阅读界面实在不友好,老姐当然要帮忙。前一篇文章也说到了小说爬虫,跳转链接,只是爬下来的是目录详情,即书名、作者、简介、正文链接。这次,爬下来的就是正文txt。===============================================...原创 2019-09-13 15:29:37 · 465 阅读 · 0 评论 -
抓取多个类别数据,一个爬虫搞定
还是从小说爬虫说起,之前关于爬虫的两篇文章,url、页面都很直接,想要啥,直接写出来就万事大吉了。可如果我要分门别类的来呢?打个比方,我想通过tag搜索不同类别的小说,而某小说网站的tag有这么多。点击一个感兴趣的tag,比如“快穿”,能得到跟之前一篇爬虫文章类似的界面,复习可戳,这里属于该类别的文章的名称、简介以及链接一应俱全,除了跟之前一样的操作,这次还要多一步,即将其他类别的也一起搞...原创 2019-09-18 20:36:51 · 673 阅读 · 0 评论