Spark RDDs介绍

最新推荐文章于 2022-06-27 14:25:55 发布

jeremyyl

最新推荐文章于 2022-06-27 14:25:55 发布

阅读量175

点赞数

分类专栏： spark 文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yjt1325/article/details/110149103

版权

spark 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

Driver Program

Spark应用程序以独立进程集的方式在集群上运行，由主程序（driver program）中的SparkContext对象协调。

driver program 包含程序的main()方法， RDDs的定义和操作

SparkContext

Driver programs 通过SparkContext对象访问Spark, SparkContext对象代表和一个集群的连接

在Shell 中SparkContext 自动创建好了，也就是sc

RDDs

Resilient distributed datasets(弹性分布式数据集简写RDDs)

RDDs 并行分布与整个集群中

比如上面lines 读取的是一个庞大的文件，那lines 这个RDD里面的内容被切分很多块分布在整个集群中，而不是一个机器上

RDDs是Spark分发数据和计算的基础抽象类

一个RDD是一个不可改变的分布式集合对象，创建之后无法更改，只能转换生成新的RDD

Spark中所有计算都是通过RDD创建、转换、操作完成的

一个RDD内部由许多partitions（分片）组成，每个分片包含一部分数据， partitions 可在集群不同节点上计算

分片分发Spark并行处理的但愿， Spark顺序的，并行的分片处理

RDDs的创建方法

1、通过方法parallelize()

val rdd = sc.parallelize(Array(1,2,3,4,4), 5)

第一个参数：待并行化处理的集合，第二个参数：分区个数

2、加载外部数据集

val rddText = sc.textFile("data.txt")

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark RDDs介绍

Driver ProgramSpark应用程序以独立进程集的方式在集群上运行，由主程序（driver program）中的SparkContext对象协调。driver program 包含程序的main()方法， RDDs的定义和操作SparkContext Driver programs 通过SparkContext对象访问Spark, SparkContext对象代表和一个集群的连接在Shell 中SparkContext 自动创建好了，也就是sc...
复制链接

扫一扫

专栏目录

jeremyyl CSDN认证博客专家 CSDN认证企业博客

码龄7年

36: 原创

8万+: 周排名

152万+: 总排名

15万+: 访问

: 等级

1506: 积分

11: 粉丝

30: 获赞

39: 评论

146: 收藏

私信

关注

热门文章

分类专栏

CommunityDetection 1篇
spark 10篇
Shell 1篇
Java 2篇
Kafka
Flink
Linux内核分析及应用
Ubuntu 18篇
DL 5篇
Linux 2篇

最新评论

社区发现算法--GN算法
沈离尘: 这个和K-L方法好像啊
社区发现算法--GN算法
yj__: 请问有向网络可以做社团检测吗
Linux下虚拟机VMware14安装MacOS10.13
七层皇堡 yyds: ./VMware-Workstation-Full-14.1.7-12989993.x86_64.bundle 执行这一步后直接报错，请问我该怎么操作阿？ (base) lzd@lzd-OptiPlex-7080:~/下载$ chmod +x VMware-Workstation-Full-14.1.7-12989993.x86_64.bundle (base) lzd@lzd-OptiPlex-7080:~/下载$ ./VMware-Workstation-Full-14.1.7-12989993.x86_64.bundle Extracting VMware Installer...done. Gtk-Message: Failed to load module "atk-bridge": /lib/x86_64-linux-gnu/libatspi.so.0: undefined symbol: g_type_add_instance_private (vmware-installer.py:9283): Gtk-WARNING **: 无法在模块路径中找到主题引擎：“adwaita”， /usr/share/themes/Yaru/gtk-2.0/main.rc:775: error: unexpected identifier `direction', expected character `}' (vmware-installer.py:9283): Gtk-WARNING **: 无法在模块路径中找到主题引擎：“adwaita”， /usr/share/themes/Yaru/gtk-2.0/hacks.rc:28: error: invalid string constant "normal_entry", expected valid string constant Gtk-Message: Failed to load module "canberra-gtk-module": libcanberra-gtk-module.so: 无法打开共享对象文件: 没有那个文件或目录 (base) lzd@lzd-OptiPlex-7080:~/下载$
Linux下虚拟机VMware14安装MacOS10.13
Simon D. Guqiu: 用“sudo+空格”开头，也就是也root权限运行
Linux下虚拟机VMware14安装MacOS10.13
Simon D. Guqiu: 您确定吗？安装虚拟机所使用的明明是某个用Deepin终端的Linux发行版（可能是ElementaryOS，我不确定），在其中安装manOS。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。