Spark资源配置（核数与内存）

最新推荐文章于 2024-10-02 23:30:24 发布

阳光洒落你窗前

最新推荐文章于 2024-10-02 23:30:24 发布

阅读量1.4w

收藏 11

点赞数 2

分类专栏： spark

spark 专栏收录该内容

10 篇文章 1 订阅

订阅专栏

关于所在节点核数怎么看？

======================================================================

# 总核数 = 物理CPU个数 X 每颗物理CPU的核数

# 总逻辑CPU数 = 物理CPU个数 X 每颗物理CPU的核数 X 超线程数

# 查看物理CPU个数

cat /proc/cpuinfo| grep "physical id"| sort| uniq| wc -l

# 查看每个物理CPU中core的个数(即核数)

cat /proc/cpuinfo| grep "cpu cores"| uniq

# 查看逻辑CPU的个数

cat /proc/cpuinfo| grep "processor"| wc -l

======================================================================

spark资源主要就是core和memery。

spark主题功能分三部分：spark RDD，sparkSQL，spark shell，如果每个部分的功能都要用，那么每块都要占用资源。

其中，spark RDD和spark shell 是动态分配占用资源的，sparkSQL是静态分配资源的（启动后即一直占着分配的资源）

spark分配的总体资源在哪里看？

cat /home/mr/spark/conf/spark-env.sh

JAVA_HOME=/usr/java/jdk

SPARK_HOME=/home/mr/spark

SPARK_PID_DIR=/home/mr/spark/pids

SPARK_LOCAL_DIRS=/data2/zdh/spark/tmp,/data3/zdh/spark/tmp,/data4/zdh/spark/tmp

SPARK_WORKER_DIR=/data2/zdh/spark/work

SPARK_LOG_DIR=/data1/zdh/spark/logs

SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18088-Dspark.history.retainedApplications=500"

SPARK_MASTER_WEBUI_PORT=18080

SPARK_WORKER_WEBUI_PORT=18081

SPARK_WORKER_CORES=25

SPARK_WORKER_MEMORY=150g

SPARK_DAEMON_MEMORY=2g

SPARK_LOCAL_HOSTNAME=`hostname`

YARN_CONF_DIR=/home/mr/yarn/etc/hadoop

SparkSQL的总体资源在哪看？

cat /home/mr/spark/conf/sparksql-default.conf

JAVA_HOME=/usr/java/jdk

SPARK_HOME=/home/mr/spark

SPARK_PID_DIR=/home/mr/spark/pids

SPARK_LOCAL_DIRS=/data2/zdh/spark/tmp,/data3/zdh/spark/tmp,/data4/zdh/spark/tmp

SPARK_WORKER_DIR=/data2/zdh/spark/work

SPARK_LOG_DIR=/data1/zdh/spark/logs

SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18088-Dspark.history.retainedApplications=500"

SPARK_MASTER_WEBUI_PORT=18080

SPARK_WORKER_WEBUI_PORT=18081

SPARK_WORKER_CORES=25

SPARK_WORKER_MEMORY=150g

SPARK_DAEMON_MEMORY=2g

SPARK_LOCAL_HOSTNAME=`hostname`

YARN_CONF_DIR=/home/mr/yarn/etc/hadoop

[root@vmax47 conf]# catsparksql-defaults.conf

spark.serializer=org.apache.spark.serializer.KryoSerializer

spark.driver.extraJavaOptions=-Xss32m-XX:PermSize=128M -XX:MaxPermSize=512m

spark.driver.extraClassPath=/home/mr/spark/libext/*

spark.executor.extraClassPath=/home/mr/spark/libext/*

spark.executor.memory=10g

spark.eventLog.enabled=true

spark.eventLog.dir=/data1/zdh/spark/logs/eventLog

spark.history.fs.logDirectory=/data1/zdh/spark/logs/eventLog

spark.worker.cleanup.enabled=true

spark.shuffle.consolidateFiles=true

spark.ui.retainedJobs=200

spark.ui.retainedStages=200

spark.deploy.retainedApplications=100

spark.deploy.retainedDrivers=100

spark.speculation=true

spark.speculation.interval=1000

spark.speculation.multiplier=4

spark.speculation.quantile=0.85

spark.shuffle.service.enabled=false

spark.dynamicAllocation.enabled=false

spark.dynamicAllocation.minExecutors=0

spark.dynamicAllocation.maxExecutors=2147483647

spark.sql.broadcastTimeout=600

spark.yarn.queue=mr

spark.master=spark://vmax47:7077,SPARK49:7077

spark.deploy.recoveryMode=ZOOKEEPER

spark.deploy.zookeeper.url=SPARK49:2181,HADOOP50:2181,vmax47:2181

spark.ui.port=4100

spark.driver.memory=40G

spark.cores.max=30

查看Spark资源可从18080端口查看：

阳光洒落你窗前

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

阳光洒落你窗前 CSDN认证博客专家 CSDN认证企业博客

码龄16年

暂无认证

45: 原创

18万+: 周排名

143万+: 总排名

51万+: 访问

: 等级

3065: 积分

48: 粉丝

150: 获赞

43: 评论

464: 收藏

私信

关注

热门文章

分类专栏

数据库 1篇
打鸡血 4篇
参与的题目 2篇
扩展 3篇
书目 1篇
scala 16篇
算法 1篇
python 6篇
统计 2篇
数据挖掘 4篇
机器学习 5篇
Linux 4篇
前端 5篇
设计模式 1篇
sbt 2篇
spark 10篇
java 2篇
IDE 2篇
数据分析 2篇
git 1篇
效率 3篇

最新评论

数据挖掘竞赛题目 -- 电影推荐
m0_75052371: 你好，这个电影推荐的项目有具体流程，代码之类的么
数据挖掘竞赛题目 -- 文本分类
阿白_大攀: 你好该数据集测试集没有标签，能不能找到完整数据集
Markdown中公式的写法(Latex)
mileszhaof: 正态分布好像缺个负号
TF-IDF原理及使用
黑眼圈@~@: 我的数据计算出来TF-IDF的数值都是大于1的。用模拟数据大部分都是0<X<1之间的。好烦。实在不明白什么原因。
Spark集群中使用spark-submit提交jar任务包实战经验
lmw0320: 请教下，如果我是用pyspark交互环境下进入yarn模式，可以正常连接hbase获取数据。而如果用spark-submit提交完整的py代码，则会报这个资源不足的提示：WARN scheduler.TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources 进入pyspark的时候命令是pyspark --master yarn，我并没有指定相应的worker内存。。同样的，我用spark-submit提交的时候，也是没有指定： spark-submit --master yarn test.py 结果却一直无法获取到数据。RM的UI页面上，我也没有看到相应的任务在执行。。而我强制结束该spark-submit任务时，在Spark的 History Server的提交记录中却看到了该任务。。求指点下，如何解决。。

最新文章

2023年1篇

2021年1篇

2019年2篇

2018年4篇

2017年14篇

2016年37篇

2014年5篇

2013年1篇

2009年1篇

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值