什么是RDD

全称是Resilient Distributed Datasets(弹性分布式数据集)

RDD官方的定义:
A Resilient Distributed Dataset:一个弹性分布式的数据集合;
A list of partitions:它是一个partitions的集合(List)
A function for computing each split:用于计算每个拆分的函数;RDD里面的数据如何进行计算;(算子)
A list of dependencies on other RDDs:依赖于其他RDD的列表;一个算子无法实现,需要多个算子相互结合进行完成任务;多个算子是有顺序的;
Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned):或者,键值RDD的分区程序(例如,说RDD是哈希分区的);凡是碰到了海量数据,提高查询效率就是两个方法:(树形结构和哈希;)
Optionally, a list of preferred locations to compute each split on (e.g. block locations for an HDFS file):或者,计算每个拆分的首选位置列表(例如,HDFS文件的块位置)

RDD操作
RDD的操作(容器的操作)叫算子。
分为两类:transformations(转换)算子和action(行为)算子。
transformation可以将一个RDD转换为下一个RDD,也是为了方便下一步操作。
action是可以触发任务的,当RDD达到一定的条件以后就可以调用action任务,开始真正的处理。
如果RDD的返回值还是RDD那就是transformations算子,如果是非RDD那就是action算子;transformations算子直到遇到action算子的时候才会执行,否则永远不执行;(这种情况叫懒)

reduceByKey:action算子,它是Spark新增加的。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值