【sparkstreaming整理】

sparkstreaming

0.什么是sparkstreaming

spark提供的实时计算的模块

1.什么是流式处理:

对Dstream进行操作实际上是对rdd进行操作,对rdd进行操作就是对rdd里面分区的元素进行操作

2.sparkstreaming处理数据的方式:

默认仅仅是计算当前批次的数据

3.构建Dstream的两种方式:

1.外部数据源【kafka】
2.高阶算子方式转换

4.sparkstreaming要求 cpu个数一定要 大于Reciver(接收器)数量

5.转换算子

1.transform
Dstream 和 rdd之间进行交互的算子
2.updateStateByKey

6.为什么要制定checkpoint,以及生产上checkpoint目录指定到哪里:

维护当前批次和以前的累计批次的数据state;生产上指定到hdfs上

7.针对sparkstreaming来说,checkpoint的作用:

1.为了容错
2.恢复作业

8.checkpoint存储的东西:

1.metadata元数据
	作业里面的配置信息
	作业代码里的算子操作
	未完成的批次
2.Data
	,每个批次里面真正传过来的数据 + stateful(状态)

9.sparkstreaming的开发模式:

1.获取kafka流数据
2.Dstream 调用foreachRDD算子进行输出:
0.获取offset信息
1.做业务逻辑
2.结果数据输出
3.提交offset信息

10.存储offset:kafka本身存在某个topic下 __consumer_offsets

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值