还是从小说爬虫说起,之前关于爬虫的两篇文章,url、页面都很直接,想要啥,直接写出来就万事大吉了。
可如果我要分门别类的来呢?
打个比方,我想通过tag搜索不同类别的小说,而某小说网站的tag有这么多。
点击一个感兴趣的tag,比如“快穿”,能得到跟之前一篇爬虫文章类似的界面,复习可戳,这里属于该类别的文章的名称、简介以及链接一应俱全,除了跟之前一样的操作,这次还要多一步,即将其他类别的也一起搞定,嗯,胃口就是这么大。
观察每个tag页面的url,很容易发现规律,都有http://www.bllyxw.com/tags.php?/,唯一的差别就是紧跟着的一串字符,不过编码方式咱看不懂,也没必要,因为第一张的全tag图的源代码里就有,先一步爬下来就行。
快穿 | http://www.bllyxw.com/tags.php?/%BF%EC%B4%A9/ |
---|---|
系统 | http://www.bllyxw.com/tags.php?/%CF%B5%CD%B3/ | <