最近review了一下Storm的源码,0.8版本和之间版本的变化比较大
0.8版本之前的Task,worker中每一个spout/bolt的线程称为一个task。在storm0.8之后,task不再与物理线程对应,同一个spout/bolt的task可能会共享一个物理线程,该线程称为executor。
目前最新的0.8.0版本里面,基本的对应关系是这样的:
worker -> 进程,一个worker只能执行同一个spout/bolt的task,一个worker里面可以有多个executor;
executor -> 线程, 一个executor执行可以执行多个task;
task -> storm进行任务分配的基本单位。
这里讲一下Tuple的发送和接收的流程。
发送Tuple:
Worker提供了一个transfer的功能,用于当前task把tuple发到到其他的task中。以目的taskid和tuple参数,序列化tuple数据并放到transfer queue中。
在0.8版本之前,这个queue是LinkedBlockingQueue,0.8之后是DisruptorQueue。
在0.8版本之后,每一个woker绑定一个inbound transfer queue和outbond queue,inbound queue用于接收message,outbond queue用于发送消息。
发送消息时,由单个线程从transferqueue中拉取数据,把这个tuple通过zeroMQ发送到其他的woker中。
接收Tuple:
每个woker都会监听zeroMQ的tcp端口来接收消息,消息放到DisruptorQueue中后,后从queue中获取message(taskid,tuple),根据目的taskid,tuple的值路由到task中执行。
每个tuple可以emit到direct steam中,也可以发送到regular stream中,在Reglular方式下,由Stream Group(stream id-->component id -->outbond tasks)功能完成当前tuple将要发送的Tuple的目的地。