（九）spark on yarn

最新推荐文章于 2024-06-22 08:37:39 发布

一枚老T

最新推荐文章于 2024-06-22 08:37:39 发布

阅读量636

点赞数

分类专栏： java spark 文章标签： spark yarn client cluster

本文链接：https://blog.csdn.net/zhtzh312/article/details/102585056

版权

YARN是一种统一资源管理机制，在其上面可以运行多套计算框架。目前的大数据技术世界，大多数公司除了使用Spark来进行数据计算，由于历史原因或者单方面业务处理的性能考虑而使用着其他的计算框架，比如MapReduce、Storm等计算框架。Spark基于此种情况开发了Spark on YARN的运行模式，由于借助了YARN良好的弹性资源管理机制，不仅部署Application更加方便，而且用户在YARN集群中运行的服务和Application的资源也完全隔离，更具实践应用价值的是YARN可以通过队列的方式，管理同时运行在集群中的多个服务。在介绍spark on yarn前，需先了解yarn的工作原理和调度机制，方便后续的理解和消化。

YARN 概述

YARN 是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序

　　YARN 是 Hadoop2.x 版本中的一个新特性。它的出现其实是为了解决第一代 MapReduce 编程框架的不足，提高集群环境下的资源利用率，这些资源包括内存，磁盘，网络，IO等。Hadoop2.X 版本中重新设计的这个 YARN 集群，具有更好的扩展性，可用性，可靠性，向后兼容性，以及能支持除 MapReduce 以外的更多分布式计算程序。

YARN 并不清楚用户提交的程序的运行机制，YARN 只提供运算资源的调度（用户程序向 YARN 申请资源，YARN 就负责分配资源），YARN 中的主管角色叫 ResourceManager，YARN 中具体提供运算资源的角色叫 NodeManager。YARN 其实就与运行的

最低0.47元/天解锁文章

一枚老T

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
（九）spark on yarn

YARN是一种统一资源管理机制，在其上面可以运行多套计算框架。目前的大数据技术世界，大多数公司除了使用Spark来进行数据计算，由于历史原因或者单方面业务处理的性能考虑而使用着其他的计算框架，比如MapReduce、Storm等计算框架。Spark基于此种情况开发了Spark on YARN的运行模式，由于借助了YARN良好的弹性资源管理机制，不仅部署Application更加方便，...
复制链接

扫一扫

专栏目录