Python利用创建1000个线程爬取盗版小说网站，并按章节顺序排列在txt文件里

Python1000线程爬取小说，使用PriorityQueue有序写入txt

xccxvb1

于 2020-06-28 15:32:11 发布

阅读量4.1k

点赞数 2

CC 4.0 BY-SA版权

分类专栏： MarkDown 文章标签： python 多线程队列

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xccxvb1/article/details/106999769

本文介绍了如何使用Python通过创建1000个线程爬取小说网站，并利用PriorityQueue保证章节按顺序写入txt文件。通过线程池控制资源消耗，提高爬取效率，与单线程相比速度显著提升。

Python利用创建1000个线程爬取盗版小说网站，并按章节顺序排列在txt文件里

文中和源码里的具体网址我都去掉了，本贴不提供成品，仅作学习交流！！！

前言：

上次我写了一篇教程：32个进程爬取小说并存在不同的txt里，有的人说文章在不同txt里不方便，自己也不会合并，那好，今天我们1000个线程（注意上次是进程这次是线程，老是有人搞混）爬取某个小说，并按照章节顺序存在txt里，这个txt我们用主流阅读软件打开都是会自动显示目录的，如下图！

上次多进程爬的那个网站已经采取了反爬措施，不行了。所以这次我又找了一个新的盗版网站，反正他是盗版网站，我们也不怕，众所周知，pyhon里如果用多线程访问同一个资源是很容易出错的，并且多线程是无序的，也就是一般来讲，我们用多线程需要用线程锁来决定谁来访问，就算用了线程锁，他的无序也决定了我们无法保证内容是按章节顺序存在txt里的，所以为了解决上面两个问题，我们引入了线程池和PriorityQueue重要性队列，按照事件的重要性来判断先后顺序，这样我们同时请求几百条信息的时候赋值给他们自己的重要性数值，就可以决定谁先写入了，下图是1000个线程爬完1400章所需时间，我们可以看到只花了10秒，这个时间是指整个程序开始，一直到文件写入完毕，是非常快的，我也试了单线程，但是单线程实在太慢了，我没耐心等下去，我算了一下，单线程爬完最少需要2分多钟，我是指最少！

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。