Spark中的内存计算是什么?

最新推荐文章于 2023-12-11 15:29:26 发布

Linux小百科

最新推荐文章于 2023-12-11 15:29:26 发布

阅读量175

点赞数

文章标签： spark

原文链接：https://www.linuxprobe.com/spark-memory-compute.html

版权

由于计算的融合只发生在 Stages 内部，而 Shuffle 是切割 Stages 的边界，因此一旦发生 Shuffle，内存计算的代码融合就会中断。

Spark中的内存计算是什么?Spark中的内存计算是什么?

在 Spark 中，内存计算有两层含义：

第一层含义就是众所周知的分布式数据缓存;
第二层含义是 Stage 内的流水线式计算模式,通过计算的融合来大幅提升数据在内存中的转换效率，进而从整体上提升应用的执行性能;

那 Stage 内的流水线式计算模式到底长啥样呢?在 Spark 中，流水线计算模式指的是：在同一 Stage 内部，所有算子融合为一个函数，Stage 的输出结果,由这个函数一次性作用在输入数据集而产生。

我们用一张图来直观地解释这一计算模式。

Spark中的内存计算是什么?Spark中的内存计算是什么?

在上面的计算流程中，如果你把流水线看作是内存，每一步操作过后都会生成临时数据，如图中的 clean 和 slice，这些临时数据都会缓存在内存里。

但在下面的内存计算中，所有操作步骤如 clean、slice、bake，都会被捏合在一起构成一个函数。这个函数一次性地作用在“带泥土豆”上，直接生成“即食薯片”，在内存中不产生任何中间数据形态。

由于计算的融合只发生在 Stages 内部，而 Shuffle 是切割 Stages 的边界，因此一旦发生 Shuffle，内存计算的代码融合就会中断。但是，当我们对内存计算有了多方位理解以后，就不会一股脑地只想到用 cache 去提升应用的执行性能，而是会更主动地想办法尽量避免 Shuffle，让应用代码中尽可能多的部分融合为一个函数，从而提升计算效率。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Linux小百科 CSDN认证博客专家 CSDN认证企业博客

码龄9年

95: 原创

4万+: 周排名

202万+: 总排名

200万+: 访问

: 等级

5697: 积分

254: 粉丝

672: 获赞

110: 评论

4375: 收藏

私信

关注

热门文章

分类专栏

信息安全 4篇
shell 1篇
DAIC 1篇

最新评论

Python 复数属性及操作介绍
2401_86885380: #coding=utf8 class Complex(object): '''创建一个静态属性用来记录类版本号''' version=1.0 '''创建个复数类，用于操作和初始化复数''' def __init__(self,rel=15,img=15j): self.realPart=rel self.imagPart=img #创建复数 def creatComplex(self): return self.realPart+self.imagPart #获取输入数字部分的虚部 def getImg(self): #把虚部转换成字符串 img=str(self.imagPart) #对字符串进行切片操作获取数字部分 img=img[:-1] return float(img) def test(): print "run test..........." com=Complex() Cplex= com.creatComplex() if Cplex.imag==com.getImg(): print com.getImg() else: pass if Cplex.real==com.realPart: print com.realPart else: pass #原复数 print "the religion complex is :",Cplex #求取共轭复数 print "the conjugate complex is :",Cplex.conjugate()
调试器的工作原理（一）：基础篇
海婷tinny: 不是吧哥们在这洗稿外网呢不标出处？？？
教你两种python selenium保存图片的方法
weixin_64816591: 您好，请问这种方法能解决下面的问题吗：网站禁止直接访问图片链接，链接访问进入空白页
linux下redis的安装与卸载
秃头迪迦: yum install gcc-c++ 安装C
Win Server 2019远程桌面服务部署
奔跑的蛋黄: 你好，请问总结上面的那句话，《并设置“按设备”，因为我们申请的就是按用户分配授权”》这句话是不是说错了？应该设置成按用户？

大家在看

东莞长安雅致酒店：在岭南，泱常与自我都可以被倾囊入怀

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。