RDD简介和创建RDD

最新推荐文章于 2023-06-05 12:10:52 发布

小财迷，嘻嘻

最新推荐文章于 2023-06-05 12:10:52 发布

阅读量321

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/weixin_48185778/article/details/110194899

版权

1、简介

1.1 概念

RDD是将数据拆分为多个分区的集合，存储在集群的工作节点上的内存或磁盘中。

RDD是弹性分布式数据集（Resilient Distributed Datasets）

1、分布式(Distributed)

数据的计算并非只局限于单个节点，而是多个节点之间协同计算得到的。

2、数据集(Datasets)

RDD是只读的、分区记录的集合，每个分区分布在集群的不同节点上。
RDD并不存储真正的数据，只是对数据和操作的描述。

3、弹性(Resilient)

RDD的数据默认情况下存放在内存中，但是在内存资源不足时，Spark会自动将RDD数据写入磁盘。
基于Linage的高效容错机制，在任何时候都能进行重算，根据数据血统，可以自动从节点失败中恢复分区，各个分片之间的数据互不影响。
Stage失败自动重试/Task失败自动重试。
Checkpoint和Persist，checkpoint持久化到文件系统。

1.2 特性

一系列的分区（分片）信息，每个任务处理一个分区
每个分区上都有compute函数，计算该分区中的数据
RDD之间有一系列的依赖
分区函数决定数据（key-value）分配至哪个分区
最佳位置列表，将计算任务分派到其所在处理数据块的存储位置

1.3 RDD编程流程

RDD创建–>RDD转换–>RDD持久化–>RDD执行

2、创建RDD

进行Spark核心编程的第一步就是创建一个初始的RDD。该RDD，通常就代表和包含了Spark应用程序的输入源数据。然后通过Spark Core提供的transformation算子，对该RDD进行转换，来获取其他的RDD。

Spark Core提供了三种创建RDD的方式：

2.1 使用内存集合创建RDD(测试环境)

//scala--IDEA中		可以使用parallelize和makeRDD创建
val conf:SparkConf=new SparkConf().setMaster("local[2]").setAppName("wordcount")
val sc:SparkContext=SparkContext.getOrCreate(conf)
val rdd1:RDD[String

最低0.47元/天解锁文章

小财迷，嘻嘻

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
RDD简介和创建RDD

目录1、简介1.1 概念1.2 特性1.3 RDD编程流程2、创建RDD2.1 使用内存集合创建RDD(测试环境)2.2 使用本地文件创建RDD(测试环境)2.3 使用HDFS文件创建RDD(生产环境)1、简介1.1 概念RDD是将数据拆分为多个分区的集合，存储在集群的工作节点上的内存中。RDD是弹性分布式数据集（Resilient Distributed Datasets）1、分布式(Distributed)数据的计算并非只局限于单个节点，而是多个节点之间协同计算得到的。2、数据集(Da
复制链接

扫一扫