抓取多个类别数据,一个爬虫搞定

本文介绍如何使用Python爬虫抓取多个类别数据。以小说网站为例,通过解析tag页面URL规律,抓取各类小说的名称、简介和链接。关键在于识别页面结构的共性,实现一个爬虫遍历所有类别。最后展示了爬取成果。
摘要由CSDN通过智能技术生成

还是从小说爬虫说起,之前关于爬虫的两篇文章,url、页面都很直接,想要啥,直接写出来就万事大吉了。

可如果我要分门别类的来呢?
打个比方,我想通过tag搜索不同类别的小说,而某小说网站的tag有这么多。
在这里插入图片描述
点击一个感兴趣的tag,比如“快穿”,能得到跟之前一篇爬虫文章类似的界面,复习可戳,这里属于该类别的文章的名称、简介以及链接一应俱全,除了跟之前一样的操作,这次还要多一步,即将其他类别的也一起搞定,嗯,胃口就是这么大。
在这里插入图片描述
观察每个tag页面的url,很容易发现规律,都有http://www.bllyxw.com/tags.php?/,唯一的差别就是紧跟着的一串字符,不过编码方式咱看不懂,也没必要,因为第一张的全tag图的源代码里就有,先一步爬下来就行。

<
快穿 http://www.bllyxw.com/tags.php?/%BF%EC%B4%A9/
系统 http://www.bllyxw.com/tags.php?/%CF%B5%CD%B3/
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值