RDD、DataFrame、DataSet的概念、区别联系、相互转换操作

最新推荐文章于 2024-03-26 07:33:12 发布

aiyue5060

最新推荐文章于 2024-03-26 07:33:12 发布

阅读量412

点赞数

文章标签： spark

本文链接：https://blog.csdn.net/weixin_60315352/article/details/128282102

版权

RDD、DataFrame、DataSet的概念、区别联系、相互转换操作

本文主要讲解Apache Spark 2.0中RDD，DataFrame和Dataset三种数据组织类型的概念、区别联系、相互转换操作。

一、RDD

概述

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，
1、RDD是Spark中的抽象数据结构类型,Spark中最基本的数据抽象,实现了以操作本地集合的方式来操作分布式数据集的抽象实现，
2、它代表一个不可变、可分区、里面的元素可并行计算的集合。
3、RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。
4、RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。
5、RDD是Spark最核心的东西,RDD必须是可序列化的。RDD可以cache到内存中，省去了MapReduce大量的磁盘IO操作
6、任何数据在Spark中都被表示为RDD。从编程的角度来看，RDD可以简单看成是一个数组。和普通数组的区别是，RDD中的数据是分区存储的可以分布在不同的机器上，同时可以被并行处理。
7、作用:Spark应用程序所做的无非是把需要处理的数据转换为RDD，然后对RDD进行一系列的变换和操作从而得到结果。

二、DataFrame

概述

在 Spark 中，DataFrame 是一种以 RDD 为基础的分布式数据集，类似于传统数据库中的二维表格。

三、DataSet

概述

DataSet 是分布式数据集合。DataSet 是 Spark 1.6 中添加的一个新抽象，是 DataFrame 的一个扩展。它提供了 RDD 的优势（强类型，使用强大的 lambda 函数的能力）以及 Spark SQL 优化执行引擎的优点。DataSet 也可以使用功能性的转换（操作 map，flatMap，filter 等等）
1、 DataSet 是 DataFrame API 的一个扩展，是 SparkSQL 最新的数据抽象。
2、用户友好的 API 风格，既具有类型安全检查也具有 DataFrame 的查询优化特性。
3、用样例类来对 DataSet 中定义数据的结构信息，样例类中每个属性的名称直接映射到 DataSet 中的字段名称。
4、DataSet 是强类型的。比如可以有 DataSet[Car]，DataSet[Person]。
5、DataFrame 是 DataSet 的特列，DataFrame=DataSet[Row] ，所以可以通过 as 方法将

最低0.47元/天解锁文章

aiyue5060

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
RDD、DataFrame、DataSet的概念、区别联系、相互转换操作

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，1、RDD是Spark中的抽象数据结构类型,Spark中最基本的数据抽象,实现了以操作本地集合的方式来操作分布式数据集的抽象实现，2、它代表一个不可变、可分区、里面的元素可并行计算的集合。3、RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。4、RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。
复制链接

扫一扫