RDD 概念

什么是RDD
RDD:弹性分布式数据集,抽象类abstract class
第一、官方定义
是一个集合,不可变的、分区的、并行计算的分布式集合
Represents an immutable, partitioned collection of elements that can be operated on in parallel.
第二、每个RDD内在5个特性
分区partitions(A list of partitions)
函数function(A funcation for computing each split)
依赖dependencies(A list of dependences on other RDDS)
RDD[(Key, Value)]设置分区器Partitioner(A partitionne for KEY-VALUE RDDS)
最佳位置,对每个分区数据计算时,获取最佳位置(A list of perfer locations to compute each split on)
第三点、常见RDD
以词频统计WordCount为例,存在哪些RDD
HadoopRDD:表示从文件系统HDFS或LocalFS读取数据
MapPartitionsRDD:filter、map、flatMap产生的RDD
ShuffleRDD:reduceByKey时产生shuffle时RDD

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值