Spark-shell执行RDD操作时报Initial job has not accepted any resources问题解决过程

CDH6.1环境下解决Spark内存不足

最新推荐文章于 2023-05-25 10:04:56 发布

原创最新推荐文章于 2023-05-25 10:04:56 发布 · 1k 阅读

0 ·

CC 4.0 BY-SA版权

Spark 专栏收录该内容

2 篇文章

订阅专栏

本文介绍在资源有限的16G内存虚拟机上搭建CDH6.1大数据环境，启动所有服务后内存紧张的问题。通过调整yarn配置及限制executor内存，成功解决Spark-shell执行RDD操作时因资源不足而失败的情况。

因为资源紧缺，用一台16G内存的虚拟机搭建了整套CDH6.1的大数据环境，全部服务启动后仅剩不到1G的内存了。
测试spark-shell时，在执行RDD的action类操作时总是报Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources

网上查了一下前辈们的解决方法，在排除掉安装环境和网络环境后，基本判断可能是因为内存不足，导致无法创建Executor，就没有办法执行job。

首先检查yarn的配置“yarn.scheduler.maximum-allocation-mb”这个参数表示每个container能够申请到的最大内存，一般是集群统一配置，默认是2G。Spark中的executor进程是跑在container中，所以container的最大内存会直接影响到executor的最大可用内存。

其次，我的程序需要申请两个executor，因此两个executor的内容总和不应该超过2G，考虑到executor还会使用384M的JVM之外的内存（executorMemoryOverhead），因此要留出一些安全空间。

最后使用“[hdfs@master ~]$ spark-shell --executor-memory 512M"的指令启动spark-shell，问题解决！