Spark—RDD知识点

王博1999

已于 2022-10-11 15:28:36 修改

阅读量788

点赞数

于 2022-09-18 16:39:52 首次发布

本文链接：https://blog.csdn.net/weixin_44604159/article/details/126907282

版权

大数据专栏收录该内容

39 篇文章 1 订阅

订阅专栏

学习目录

一、什么是RDD
二、RDD和IO之间的关系
三、RDD的五个主要属性
四、读取文件的方式
五、RDD的并行度和分区
六、RDD分区间数据的执行顺序

一、什么是RDD

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是 Spark 中最基本的数据处理模型。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。

弹性：
① 存储的弹性：内存与磁盘的自动切换；
② 容错的弹性：数据丢失可以自动恢复；
③ 计算的弹性：计算出错重试机制；
④ 分片的弹性：可根据需要重新分片。
分布式：数据存储在大数据集群不同节点上
数据集：RDD 封装了计算逻辑，并不保存数据
数据抽象：RDD 是一个抽象类，需要子类具体实现
不可变：RDD 封装了计算逻辑，是不可以改变的，想要改变，只能产生新的 RDD，在新的 RDD 里面封装计算逻辑
可分区、并行计算

二、RDD和IO之间的关系

RDD的数据处理方式类似于IO流，也有装饰者设计模式
RDD的数据只有在调用collect方法时，才会真正执行业务逻辑操作。前面所做处理的封装都是功能的扩展
RDD是不保存数据的，而IO可以临时保存一部分数据

三、RDD的五个主要属性

源码注释

在这里插入图片描述
1.分区列表：RDD 数据结构中存在分区列表，用于执行任务时并行计算，是实现分布式计算的重要属性

protected def getPartitions: Array[Partition]

2.分区计算函数：Spark 在计算时，是使用分区函数对每一个分区进行计算

def compute(split: Partition, context: TaskContext): Iterator[T]

3.RDD 之间的依赖关系：RDD 是计算模型的封装，当需求中需要将多个计算模型进行组合时，就需要将多个 RDD 建立依赖关系

protected def getDependencies: Seq[Dependency[_]] = deps

4.分区器（可选）：当数据为 KV 类型数据时，可以通过设定分区器自定义数据的分区

@transient val partitioner: Option[Partitioner] = None

5.首选位置（可选）：计算数据时，可以根据计算节点的状态选择不同的节点位置进行计算

protected def getPreferredLocations(split: Partition): Seq[String] = Nil

四、读取文件的方式

第一种：sc.textFile(路径)

参数：以行为单位，可以是文件的相对路径，也可以是绝对路径，也可以是文件目录（如果是目录，会对目录中所有的文件进行统计）

第二种：sc.wholeTextFiles(路径)

参数：以文件为单位读取数据，读取的结果表示为元组，元组中第一个元素为文件的路径，第二个元素为文件的内容

五、RDD的并行度和分区

在资源充足的情况下，如分配5个分区，那么这个五个分区就可以并行计算执行

情况一：在创建RDD时，使用makeRDD的方法，spark分区是怎么分的（其中可以传递第二个参数指定分区数量，也可以不传，会分配默认分区。）

默认分区会怎么分呢？

源码中会调用这样一段代码：

scheduler.conf.getInt("spark.default.parallelism",totalCores)

spark在默认情况下，会从SparkConf配置对象中获取配置参数：spark.default.parallelism

如果不配置，就获取不到，那么使用totalCores属性，这个属性取值为当前运行环境的最大可用核数（比如说本地运行环境，电脑为四核，那么默认就会分4个分区）

如果配置spark.default.parallelism参数
代码如下：

val sparkConf = new SparkConf().setMaster("local").setAppName("RDD")
sparkConf.set("spark.default.parallelism","5")

spark.default.parallelism的值就为5，那么就会分为5个分区

数据又是如何存储在分区中的呢？

p36

情况二：在读取文件时，数据的分区是多少，以及数据是如何分配的不同分区当中的。（其中可以传递第二个参数指定分区数量，也可以不传，会分配默认分区。）

默认分区会怎么分呢？

源码中默认会有一个最小分区数量：minPartitons，如果在本地运行环境下电脑核数小于2，那么默认分区就算该电脑的核数，如果核数大于2，那么分区数量就是2

指定分区数量和makeRDD不同，他有自己的计算方式

他会读取该文件的字节数，然后除以你传的第二个参数取整，得到一个数值，该数值就是一个分区所放的字节数，最后就会按照总的字节数分若干个分区
如：文件内容为7个字节，设置两个分区，那么最终的分区数就是3
7/2=3 ，一个分区放三个字节，那么就算三个分区数

数据又是如何存储在分区中的呢？

p38 p39

六、RDD分区间数据的执行顺序

rdd的计算一个分区的数据时一个一个的执行逻辑，只有前面一个数据全部的逻辑执行完毕后，才会执行下一个数据，所以说分区内数据的执行时有序的，而不同分区之间数据的计算是无序的

王博1999

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
Spark—RDD知识点

RDD小知识
复制链接

扫一扫

专栏目录