RDD血缘关系的理解:
是什么?为什么?怎么做?
是transformation,调用算子,形成新的rdd,相互依赖,这个成为血缘关系;
**作用:**恢复数据,数据丢失的时候,可以通过依赖关系恢复数据;
宽依赖和窄依赖,任务的切分与血缘关系有关系。
spark如何进行任务切分?
在一个application中有很多的算子,遇到action算子是,分装成job,分成多个stage,stage的数量主要看有多少个宽依赖;
rdd的cache和checkpoint的区别和联系
cache不切断依赖,checkpoint在他之前没有action算子他才会生效切断依赖;
涉及到复用的时候使用这些;依赖特别多的时候,做了宽依赖的时候;
本地32m,集群上面是128m
spark的切片机制
对广播变量的理解:
sc.broadcast();
bc.value