PySpark入门二：认识RDD

最新推荐文章于 2023-07-30 20:47:38 发布

Roc Huang

最新推荐文章于 2023-07-30 20:47:38 发布

阅读量429

点赞数 1

分类专栏： PySpark从入门到放弃数据分析文章标签： spark 数据挖掘

本文链接：https://blog.csdn.net/weixin_43790705/article/details/108270582

版权

本文是PySpark入门系列的第二篇，主要介绍了RDD的概念。RDD（弹性分布式数据集）是Spark的核心数据结构，它是一种无schema的分布式内存抽象，允许混合不同类型的数据。与pandas的dataframe不同，RDD允许使用数组、字典和集合等数据结构。此外，还涵盖了如何在PySpark中读取文件。

摘要由CSDN通过智能技术生成

一、RDD介绍

弹性分布式数据集，简称为RDD，是不可变JVM对象的分布式集合，Spark 就是围绕RDD而构建的。RDD对对象的作业是非常快速的执行的，这依赖于RDD的计算是依据缓存和存储在内存中的模式进行。
RDD有两组并行操作：转换和动作。转换是指返回指向新RDD的指针；动作是指在运行计算后返回值。
同时，RDD也有它惰性的一面，他们并不立即计算其结果，只有动作执行了，并且需要返回值时，才会进行计算转换。

二、Schema

与pandas的dataframe有所区别的是，spark的RDD是一种无schema的数据结构。
因此我们可以混用任何类型的数据结构，比如数组、字典、集合

data = sc.parallelize([
	('fst', None),
	{
   <

最低0.47元/天解锁文章

Roc Huang

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
PySpark入门二：认识RDD

一、RDD介绍弹性分布式数据集，简称为RDD，是不可变JVM对象的分布式集合，Spark 就是围绕RDD而构建的。RDD对对象的作业是非常快速的执行的，这依赖于RDD的计算是依据缓存和存储在内存中的模式进行。RDD有两组并行操作：转换和动作。转换是指返回指向新RDD的指针；动作是指在运行计算后返回值。同时，RDD也有它惰性的一面，他们并不立即计算其结果，只有动作执行了，并且需要返回值时，才会进行计算转换。二、Schema与pandas的dataframe有所区别的是，spark的RDD是一种无s
复制链接

扫一扫

专栏目录