scrapy框架下,爬取小说,解决章节乱序问题(小说封面+章节内容+简介)练手Demo

本文介绍了如何在Scrapy框架下解决爬取小说时遇到的章节乱序问题。通过添加自增ID并调整解析逻辑,确保章节内容按照网站原有顺序保存。参考了@数学狂魔博客的方法,但针对不同类型的章节标题进行了优化。博客还包含了Scrapy爬虫的基本业务代码示例,以及避免异步处理的设置。
摘要由CSDN通过智能技术生成

首先,要感谢   @数学狂魔博客的启发,https://blog.csdn.net/qq_43391383/article/details/86930106,在他的博客中是采用把标题拆开,做成引导顺序的形式,然后进行同步IO,但我发现,这样的方法并不适用于每一种标题。如,第一章,第二章...这样的就不好拆了,于是我就想到自己加一个id的形式。思路类似于写数据表的时候,我们要给表添加一个自增的id,一个道理。

scrapy框架如何搭建,请自行百度,网上教程一大堆。废话不说,上代码。

第一步:在spiders里写下爬虫的业务代码(敲黑板,重点来了,解决乱序的)

这里设置一个自增id,为之后爬取每一章有一个自增的id,如  1:xxxx,2:xxxx,3:xxx     .....

 

 

 

接下来,在解析内容里,把之前的开头id+: 

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值