杂记 待整理

http://www.cnblogs.com/jerrylead/archive/2012/08/13/2636115.html


1. 每个spark程序均有一个驱动程序,它运行main函数,在集群上执行并行操作


2. spark有两种抽象

    第一种是RDD

    第二种是 shared variables ---- 共享变量  

             1. 广播变量 Broadcast variables。 它在所有节点都缓存只读的变量,就是master节点会往每一个slave节点都发送一份数据, 和发送task不一样 发送task使用的是控制通   

                 道,发送广播变量使用的是数据通道(待确定)

                 注意:创建了广播变量之后,就不能使用v了,要使用broadcaseCar;v值不能修改。 创建广播变量的原数据可不可以修改??

            2.  累计变量 Accumulators。它只能被“加起来” (待理解)


3. RDD持久化

           cache() 只有一个默认的存储方式就是内存。 思考 : RDD不同阶段的存储方式??





评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值