关于多线程爬取小说排序混乱的问题

最新推荐文章于 2024-08-09 10:23:08 发布

留取心魂守

最新推荐文章于 2024-08-09 10:23:08 发布

阅读量3.1k

点赞数 2

文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_47897726/article/details/109400549

版权

本文介绍了如何使用多线程爬取小说时避免章节顺序混乱，通过下载独立txt文件并格式化章节名称，让Windows自动排序。章节提取和写入时注重清理非数字内容，统一字数格式，最终通过os.popen合并文件并删除多余章节。

摘要由CSDN通过智能技术生成

爬虫# 系列##关于多线程爬取小说排序混乱的问题文章目录

前言

在多线程爬取小说的时候如果整体放入一个txt文件的话章节顺序会混乱导致无法正常阅读
同时翻阅其他人写的程序之后发现都太复杂了所以我给大家带来了一个更加简单的方法

一、下载章节单独一个txt文件

这样做的好处就是win10系统会自动对章节进行排序看起来也更加整齐
在这里插入图片描述就像这样系统会自动排序后面说一下如何格式化章节名字让系统理解我们想要的排序

二、小说章节名字格式化

1.提取小说章节时的格式化

在这里插入图片描述在我们提取章节名字之后可以直接用re 库去提取章节里面的数字即章节的序号同时章节会有一些作者的个人感言或者感谢这些通常是不带有数字的
这样做还可以顺便过滤掉这些章节一举两得

2.章节写入时的格式化即字数统一

在上一步之后如果不进行任何处理会发现章节是 1 2 3 4 5 .。。。。。10.。。100.。
在进行合并的时候会发现10 会合并到1的前面那么如何处理呢
那就是格式化章节的字数即 1格式化为 001， 002， 003 .。。等
代码如下直接 if判断就好了

如果这个具体添加到几千个章节或者说前面添加几个0 要看具体小说会有多少章节一般的话 1000+章节就可以了
这样下来会发现我们爬取的小说章节名字已经全部格式化了
在这里插入图片描述很整齐下面就进行最简单的一步了合并先上代码
这里有两个time延时经过我的测试可能是系统需要时间进行处理 1000+章节2秒的延时完全可以处理完
我们使用os.popen 即系统的cmd命令进行*.txt格式文件的合并

type *.txt 表示当前文件夹下面的所有txt文件

C:\Users\wjyalmj\Desktop\p.txt’
这个代表了你要合并的文件保存的路径我保存到了桌面你们可以自行选择路径最后的p.txt 是你要保存的文件名我就随便写了一个
同时我们会发现文件里面还有将近上千个单独的章节文件
可以使用
os.popen(‘del *.txt’) 命令
因为我们已经把成品即合并后的文件保存到了桌面所以如果你不再需要这些单独的章节的话可以使用这个命令删除掉同时也需要2秒的延时让系统去处理

我们去看一下成品
在这里插入图片描述
桌面上多了一个文件同时爬取下来的单独文件章节已经删除

检查一下发现顺序完全正确