1. 简介
实时的流式 处理框架 storm 进程长期运行在内存,在内存中作运算
基本名词:
1. topolgy : DAG有向无环图的实现,包含了应用程序的逻辑,是对storm实时计算的封装,计算拓扑,即,由一系列通过数据流相互关联的Spout、Bolt所组成的拓扑结构,启动后会不停的计算,除非手动终止
2. spout :消息流的源头,Topology的消息生产者。
3. bolt:数据流处理组件,相当于每个数据处理节点,每个任务分发到若干个bolt 中进行计算
4. tuple:Stream 最小的数据组成单元。
5. Stream :数据流 spout > bolt > bolt >.. 形成的数据传输
6. Stream grouping : 数据传输分发策略, (
shuffle grouping--随机分组
Fields grouping--按照字段分组
all grouping--广播发送
global grouping--全局分组
none grouping--部分组
direct grouping--指向型分组
local or shuffle grouping--本地或者随机
custom grouping 自定义 )
《 ******************大家可以想象为流水线工作,每个bolt 做单一的任务职责,******************************* 》
7.Nimbus: Storm集群主节点,负责资源分配和任务调度。我们提交任务和截止任务都是在Nimbus上操作的。一个Storm集群只有一个Nimbus节点。 主要功能和yarn 中的resourceManager 一样
8. Supervisor: 接受nimbus 分配的任务,管理自己的worker进程,当前supervisor上worker数量由配置文件设定, 默认为4个
9. Worker : 运行具体处理运算组件的进程(每个Worker对应执行一个Topology的子集),worker 任务有两种,即spout,bolt 。一般默认负责执行一个task 任务,也可以有多个;
10. Re