目录
一:流数据特征
- 数据快速到达
- 数据来源众多
- 数据量大
- 注重数据的整体价值
二:流数据的数据价值
数据的价值随着时间流逝而降低。
三:流计算系统的标准
- 高性能
- 海量式
- 实时性
- 分布式
- 易用性
- 可靠性
四:流处理系统与传统的数据处理系统区别
- 流处理系统处理的是实时的数据,而传统的数据处理系统处理的是预先存储好的静态数据。
- 用户通过流处理系统获取的是实时结果,而通过传统的数据处理系统,获取的是过去某一时刻的结果。
- 流处理系统无需向用户主动发出查询,实时查询服务可以主动将实时结果推送给用户。
五:数据处理分类
- 数据处理方式角度:流式, 批量
- 数据处理延迟: 实时, 离线
六:streaming的特点
- 易用
- 容错
- 容易整合到spark体系
七:DStream转换
DStream上的操作与rdd类似,分为transformations和ouput operations(输出)。此外,转换操作中还有一些比较特殊的原语,例如:updatestatebykey(), transform()以及各种window相关的原语。
八:Flink优势
- 同时支持高吞吐,低延迟,高性能
- 同时支持流处理和批处理
- 高度灵活的流式窗口
- 支持有状态计算
- 具有良好的容错性
- 具有独立的内存管理
- 支持迭代和增量迭代。