Spark Job (thrift-server) 动态分配资源

最新推荐文章于 2024-08-12 02:56:58 发布

xueba207

最新推荐文章于 2024-08-12 02:56:58 发布

阅读量3.2k

点赞数

分类专栏： Spark 文章标签： spark yarn 动态资源 job

本文链接：https://blog.csdn.net/xueba207/article/details/50546965

版权

本文介绍如何在Spark Thrift-Server上实现动态资源分配，以适应HDFS数据查询统计服务的需求。通过调整YARN Node Manager配置和Spark默认配置，实现资源按需分配，减少空闲时的资源浪费。在YARN上运行的Spark作业可以利用这种动态分配，提高资源利用率。

摘要由CSDN通过智能技术生成

项目中使用spark 自带的thrift-server做hdfs数据查询统计服务。当数据过多时，thrift-server 需要分配大量的资源，当不需要查询时分配当量的资源又显得非常浪费，因此想到是否有可能动态分配资源。
（thrift-server也是一个job（yarn app），因此这种方法同样适用于一般的spark job）。
目前动态资源分配只适合spark on yarn，配置方式如下。

yarn node manager 配置

修改所有节点yarn node-manager配置，在$HADOOP_HOME/etc/hadoop/yarn-site.xml中添加：

    <property>
        <name>yarn.nodemanager.aux-services.spark_shuffle.class</name>
        <value>org.apache.spark.network.yarn.YarnShuffleService</value>