文章目录
sparkstreaming
0.什么是sparkstreaming
spark提供的实时计算的模块
1.什么是流式处理:
对Dstream进行操作实际上是对rdd进行操作,对rdd进行操作就是对rdd里面分区的元素进行操作
2.sparkstreaming处理数据的方式:
默认仅仅是计算当前批次的数据
3.构建Dstream的两种方式:
1.外部数据源【kafka】
2.高阶算子方式转换
4.sparkstreaming要求 cpu个数一定要 大于Reciver(接收器)数量
5.转换算子
1.transform
Dstream 和 rdd之间进行交互的算子
2.updateStateByKey
6.为什么要制定checkpoint,以及生产上checkpoint目录指定到哪里:
维护当前批次和以前的累计批次的数据state;生产上指定到hdfs上
7.针对sparkstreaming来说,checkpoint的作用:
1.为了容错
2.恢复作业
8.checkpoint存储的东西:
1.metadata元数据
作业里面的配置信息
作业代码里的算子操作
未完成的批次
2.Data
,每个批次里面真正传过来的数据 + stateful(状态)
9.sparkstreaming的开发模式:
1.获取kafka流数据
2.Dstream 调用foreachRDD算子进行输出:
0.获取offset信息
1.做业务逻辑
2.结果数据输出
3.提交offset信息