首先,要感谢 @数学狂魔博客的启发,https://blog.csdn.net/qq_43391383/article/details/86930106,在他的博客中是采用把标题拆开,做成引导顺序的形式,然后进行同步IO,但我发现,这样的方法并不适用于每一种标题。如,第一章,第二章...这样的就不好拆了,于是我就想到自己加一个id的形式。思路类似于写数据表的时候,我们要给表添加一个自增的id,一个道理。
scrapy框架如何搭建,请自行百度,网上教程一大堆。废话不说,上代码。
第一步:在spiders里写下爬虫的业务代码(敲黑板,重点来了,解决乱序的)
这里设置一个自增id,为之后爬取每一章有一个自增的id,如 1:xxxx,2:xxxx,3:xxx .....
接下来,在解析内容里,把之前的开头id+: