scrapy框架下，爬取小说，解决章节乱序问题（小说封面+章节内容+简介）练手Demo

最新推荐文章于 2023-11-11 09:45:00 发布

指弹代码摄影狗

最新推荐文章于 2023-11-11 09:45:00 发布

阅读量5.1k

点赞数 9

分类专栏：爬虫文章标签：乱序 Python Scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zz001357/article/details/102753070

版权

本文介绍了如何在Scrapy框架下解决爬取小说时遇到的章节乱序问题。通过添加自增ID并调整解析逻辑，确保章节内容按照网站原有顺序保存。参考了@数学狂魔博客的方法，但针对不同类型的章节标题进行了优化。博客还包含了Scrapy爬虫的基本业务代码示例，以及避免异步处理的设置。

摘要由CSDN通过智能技术生成

首先，要感谢 @数学狂魔博客的启发，https://blog.csdn.net/qq_43391383/article/details/86930106,在他的博客中是采用把标题拆开，做成引导顺序的形式，然后进行同步IO，但我发现，这样的方法并不适用于每一种标题。如，第一章，第二章...这样的就不好拆了，于是我就想到自己加一个id的形式。思路类似于写数据表的时候，我们要给表添加一个自增的id，一个道理。

scrapy框架如何搭建，请自行百度，网上教程一大堆。废话不说，上代码。

第一步：在spiders里写下爬虫的业务代码（敲黑板，重点来了，解决乱序的）

这里设置一个自增id，为之后爬取每一章有一个自增的id，如 1：xxxx，2：xxxx，3：xxx .....

接下来，在解析内容里，把之前的开头id+：

最低0.47元/天解锁文章

指弹代码摄影狗

关注

9
点赞
踩
18

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。