Queue队列中join()与task_done()的作用

0x00 前言

最近在写多线程爬虫,遇到一个场景,爬虫需要一个入口url然后爬取更多的url。为了线程安全,我使用了queue队列。这里我把问题归纳为生产者消费者问题,多线程爬虫就是多个消费者,生成者负责把爬虫爬取的新的url放到队列中。

在这个过程中,生产者要一直关注消费者新产出的url,然后放到队列中供消费者使用(这么看起来这个生产者有点黑),所以这里要用一个死循环,让生产者一直关注新的url产生情况。
多个消费者同样也要一直关注队列,一旦有新的url产生,就买买买!!!所以这里也需要一个死循环。

那么问题来了,我们的市场是有限的(一个网站的url是有限的,总会被爬完),当所有的url被爬完后,我们的生产者和消费者还在死循环中,那么什么时候才能结束这两个死循环呢?

这个时候我们就要站的更高一点来看了,这个生产者消费者模型中,我们还能看到组织这次活动的主线程,主线程组织了这场活动,看到生产者和消费者们参加了活动就撒手不管了直接回家了。这样主线程就太悠闲了,我们可以在活动未完成之前阻塞主线程,不让他走,让他监控整个活动现场,一旦发现活动结束了就让他收场子了,这样生产者消费者就可以被迫下班,结束死循环。

task_done()、join()

task_done():每当消费者get()一次,无论消费者是否从队列中获取到东西,都会产生一个任务。当消费者完成这个任务后需要调用task_done()来告诉队列这个任务已经完成了。

这个任务是相对于队列queue来说的,而调用queue的就是主线程,所以我们可以理解为是主线程发布的任务

join():join()函数放到的地方后面的代码就会被阻塞,直到队列中所有的元素都被接收和处理完毕才会执行后面的代码。就是队列中既没有任务也没有元素时,就会取消阻塞。

关系:如果线程里每从队列里get()一次,但没有执行task_done(),则join无法判断队列到底有没有结束,在最后执行join()是等不到结果的,会一直挂起。

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值