什么是RDD
RDD:弹性分布式数据集,抽象类abstract class
第一、官方定义
是一个集合,不可变的、分区的、并行计算的分布式集合
Represents an immutable, partitioned collection of elements that can be operated on in parallel.
第二、每个RDD内在5个特性
分区partitions(A list of partitions)
函数function(A funcation for computing each split)
依赖dependencies(A list of dependences on other RDDS)
RDD[(Key, Value)]设置分区器Partitioner(A partitionne for KEY-VALUE RDDS)
最佳位置,对每个分区数据计算时,获取最佳位置(A list of perfer locations to compute each split on)
第三点、常见RDD
以词频统计WordCount为例,存在哪些RDD
HadoopRDD:表示从文件系统HDFS或LocalFS读取数据
MapPartitionsRDD:filter、map、flatMap产生的RDD
ShuffleRDD:reduceByKey时产生shuffle时RDD
RDD 概念
最新推荐文章于 2022-01-03 00:48:09 发布