sparkcore小结

RDD血缘关系的理解:
是什么?为什么?怎么做?
是transformation,调用算子,形成新的rdd,相互依赖,这个成为血缘关系;
**作用:**恢复数据,数据丢失的时候,可以通过依赖关系恢复数据;
宽依赖和窄依赖,任务的切分与血缘关系有关系。

spark如何进行任务切分?
在一个application中有很多的算子,遇到action算子是,分装成job,分成多个stage,stage的数量主要看有多少个宽依赖;

rdd的cache和checkpoint的区别和联系
cache不切断依赖,checkpoint在他之前没有action算子他才会生效切断依赖;
涉及到复用的时候使用这些;依赖特别多的时候,做了宽依赖的时候;

本地32m,集群上面是128m
spark的切片机制

对广播变量的理解:
sc.broadcast();

bc.value

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值