跟天齐老师学Spark(7)--关于Spark的RDD

关于spark的RDD:
关于RDD,可以查看官方文档,可以看作者的论文,也可以看spark源码中关于RDD的注释。

按Ctrl+N快捷键,搜索RDD,进入源码,如果没有关联源码,在IDEA中右上角会有一个提示:"Attach Sources".

在IDEA中关联spark的源码,首先解压下载好的spark源码包(spark-1.6.2.tgz),然后在IDEA中选择右上角的Attach Sources,在弹出的窗口中选择自己解压后的spark的源码目录即可。

RDD:一个弹性、可复原的、分布式的数据集。它是spark的一个最基本的抽象。不可变的(一旦创建好了,在计算的时候是不可变,对它进行各种操作都只能生成新的RDD),被分区的(一个分区只能属于一台机器,但是一台机器上可能有很多很多的分区),的集合,它可以被并行的计算。


只有key-value格式的数据才可以使用groupByKey或者join。

RDD的5个特点:
数据是存放在多个分区里面的。
(1)RDD中有很多的分区,分区List是有序的(意味着如果你的数据很少,而分区很多,
那么就可能有的分区中有数据,有的可能没有数据);
(2)一个函数会作用到每一台机器上的每一个分区上面(split);
(3)RDD和RDD之间是存在依赖关系的
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

十光年

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值