http://www.cnblogs.com/jerrylead/archive/2012/08/13/2636115.html
1. 每个spark程序均有一个驱动程序,它运行main函数,在集群上执行并行操作
2. spark有两种抽象
第一种是RDD
第二种是 shared variables ---- 共享变量
1. 广播变量 Broadcast variables。 它在所有节点都缓存只读的变量,就是master节点会往每一个slave节点都发送一份数据, 和发送task不一样 发送task使用的是控制通
道,发送广播变量使用的是数据通道(待确定)
注意:创建了广播变量之后,就不能使用v了,要使用broadcaseCar;v值不能修改。 创建广播变量的原数据可不可以修改??
2. 累计变量 Accumulators。它只能被“加起来” (待理解)
3. RDD持久化
cache() 只有一个默认的存储方式就是内存。 思考 : RDD不同阶段的存储方式??