1. 简介
实时的流式 处理框架 storm 进程长期运行在内存,在内存中作运算
基本名词:
1. topolgy : DAG有向无环图的实现,包含了应用程序的逻辑,是对storm实时计算的封装,计算拓扑,即,由一系列通过数据流相互关联的Spout、Bolt所组成的拓扑结构,启动后会不停的计算,除非手动终止
2. spout :消息流的源头,Topology的消息生产者。
3. bolt:数据流处理组件,相当于每个数据处理节点,每个任务分发到若干个bolt 中进行计算
4. tuple:Stream 最小的数据组成单元。
5. Stream :数据流 spout > bolt > bolt >.. 形成的数据传输
6. Stream grouping : 数据传输分发策略, (
shuffle grouping--随机分组
Fields grouping--按照字段分组
all grouping--广播发送
global grouping--全局分组
none grouping--部分组
direct grouping--指向型分组
local or shuffle grouping--本地或者随机
custom grouping 自定义 )
《 ******************大家可以想象为流水线工作,每个bolt 做单一