Celery的分布式实际包含两个层次:
- Distribute work on a given machine across all CPUs
- Distribute work to many machines
先说第一点,默认情况下,Celery在一台机器上启动worker,worker的进程数量和机器的CPU个数一致。比如你的机器只有一个CPU,例如,同时启动5个worker进程,其中concurrency参数控制启动worker的进程数量:
celery -A tasks worker --loglevel=INFO --concurrency=5
注意:在某些IO密集型的任务中,可以考虑启动worker的数量多于CPU数量,在CPU密集型的任务中,这样的操作可能没有什么好处。
再说第二点,因为Celery只指定了worker的broker,所以只需要在不同机器上启动worker,它们都会从相同的broker中获取任务并处理。
在考虑不同机器上的操作时,涉及远程控制的概念,分别如下:
当观察所有运行worker的信息,例如观察当前处于活跃状态的worker和task:
celery -A tasks inspect active
当需要控制worker的行为,例如向worker中增加对某队列的消费:
celery control -d w1.e.com add_consumer queue_name
当需要观察当前worker状态:
celery -A tasks status