![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 88
Spark
黑星bm
这个作者很懒,什么都没留下…
展开
-
spark 流程详解(任务切分,调度,通讯架构)
spark整个流程第6步详解解析:6.1的LauncherPool为线程池,它会启动一个线程类NMclient用来和NodeManager通信用,然后会启动NodeManager中的一个进程ExecutorBackend,然后启动两个通信模块(也就是RPC终端,用来通信)通信注册完后,第9步建立Executor计算对象(线程),也就是跑RDD的承担者注:7,8,9,10步在通讯架构中详解任务切分第十步:任务切分解析:如下图所以当Exeuctor启动完成后,就开始跑代码,直到遇到第一个行动算原创 2021-03-08 19:50:27 · 979 阅读 · 2 评论 -
Spark之RDD理解(分区策略)
RDD理解首先在理解RDD之前,我们要知道Spark的运行流程,大致分为Standalone模式和跑在其它调度器上,如yarn和Mesos,而最常见的就是跑在yarn上,跑在yarn上还分为Client和Cluster两种模式。区别在于:Client模式的Driver跑在了当前本地机器上而不是集群上,当本地机器与集群机器所在地距离远时会受到网速影响较大,输出结果和运行日志直接输出到控制台上,开发中适合做调试用Cluster模式Driver跑在集群上,当本地机器与集群机器所在地距离远时会受到网速影响较原创 2021-02-20 23:49:50 · 656 阅读 · 0 评论