spark-sgg-java

小皮每天进步一点点

已于 2024-08-14 18:00:48 修改

阅读量174

点赞数 6

文章标签： spark 大数据分布式

于 2024-08-14 15:28:43 首次发布

本文链接：https://blog.csdn.net/weixin_63295029/article/details/141186507

版权

spark的内置模块:

一 spark集群部署(yarn)

spark是一种计算框架,spark集群部署有很多种.

如果资源是当前单节点提供的,那么就称之为单机模式.
如果资源是当前多节点提供的,那么就称为分布式模式.
如果资源是由yarn提供的,那么久成为yarn部署环境.
如果资源是由spark提供的,那么就称为spark部署环境.(standalone)

在生产环境中,一般是yarn部署环境.(spark on yarn)

如上图所示,将业务代码提交到spark到提交,然后用资源去计算.
bin /spark-submit --class spark.pi --master yarn ./examples/jars/spark-examples.jar 10
上边代码表示使用bin/spark-submit脚本,执行spark.pi类,jar包在./examples/jars/spark-examples.jar路径下,迭代10次.

问题:spark是怎么知道yarn在哪里并且连接到他的?

答:在配置spark的时候,/opt/module/spark/conf/spark-env.sh 脚本中配置了:YARN_CONF_DIR=/opt/module/hadoop/etc/hadoop,该目录下的yarn-site.xml中配置了yarn的resource manager在那台机器.

配置历史服务:

想查看spark的执行的记录,需要配一个历史服务.

修改spark-default.conf文件:在该文件中添加
spark.eventLog.enabled true
spark.enventLog.dir hdfs://hadoop102:8020/directory
# 日志会保存到hdfs的directory 文件下,所以要先创建这个目录.
spark.yarn.historyServer.address=hadoop102:18080
spark.history.ui.port=18080
修改spark-env.sh ,添加如下配置:
重启spark历史服务

重新提交任务到yarn上:
web页面查看日志:http://hadoop103:8088/cluster