Python利用创建1000个线程爬取盗版小说网站,并按章节顺序排列在txt文件里

本文介绍了如何使用Python通过创建1000个线程爬取小说网站,并利用PriorityQueue保证章节按顺序写入txt文件。通过线程池控制资源消耗,提高爬取效率,与单线程相比速度显著提升。
摘要由CSDN通过智能技术生成

Python利用创建1000个线程爬取盗版小说网站,并按章节顺序排列在txt文件里

文中和源码里的具体网址我都去掉了,本贴不提供成品,仅作学习交流!!!

前言:

上次我写了一篇教程:32个进程爬取小说并存在不同的txt里,有的人说文章在不同txt里不方便,自己也不会合并,那好,今天我们1000个线程(注意上次是进程这次是线程,老是有人搞混)爬取某个小说,并按照章节顺序存在txt里,这个txt我们用主流阅读软件打开都是会自动显示目录的,如下图!

在这里插入图片描述

上次多进程爬的那个网站已经采取了反爬措施,不行了。所以这次我又找了一个新的盗版网站,反正他是盗版网站,我们也不怕,众所周知,pyhon里如果用多线程访问同一个资源是很容易出错的,并且多线程是无序的,也就是一般来讲,我们用多线程需要用线程锁来决定谁来访问,就算用了线程锁,他的无序也决定了我们无法保证内容是按章节顺序存在txt里的,所以为了解决上面两个问题,我们引入了线程池和PriorityQueue重要性队列,按照事件的重要性来判断先后顺序,这样我们同时请求几百条信息的时候赋值给他们自己的重要性数值,就可以决定谁先写入了,下图是1000个线程爬完1400章所需时间,我们可以看到只花了10秒,这个时间是指整个程序开始,一直到文件写入完毕,是非常快的,我也试了单线程,但是单线程实在太慢了,我没耐心等下去,我算了一下,单线程爬完最少需要2分多钟,我是指最少!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值