Spark集群的搭建

最新推荐文章于 2024-04-23 15:57:47 发布

CX小汪

最新推荐文章于 2024-04-23 15:57:47 发布

阅读量159

点赞数 3

文章标签： spark 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/whdsg66/article/details/134709899

版权

一.前言

最近在学习spark的过程中发现很多教材和文章都是用的比较老版本的spark，于是博主就花了一些时间下载了相对新一点的版本的spark，感觉跟旧版的spark的集群搭建还是存在差异，下面就让我们一起动手来将搭建spark集群吧

1)spark版本

博主使用的spark是spark-3.3.3-bin-hadoop3（适用于hadoop3.3及以上的预搭建）

需要的可以在官网下载：下载 |Apache Spark（阿帕奇斯帕克酒店）

2)hadoop版本

博主使用的hadoop是hadoop3.3.1版本的hadoop

需要下载的可以去官网下载：Apache 下载镜像

3)jdk版本

博主使用的jdk版本是jdk1.8.0-144（可能有点低，自己根据需要下载）

二.Spark搭建

1.hadoop搭建

（1）所需软件

VMware 12、Centos 7 64bit、hadoop 3.3.1、jdk 1.8

（2）linux配置

1.配置三个节点的地址

2.配置节点的主机名

vim /etc/hostname

将主机名分别命名为centos01，centos02，centos03

3.配置内网域名的映射

vim /etc/hosts

4.配置主机之间的ssh免密登录

ssh-keygen //从主机上生成key

ssh-copy-id centos02 //复制到centos02中

ssh-copy-id centos03 //复制到centos03中

（2）jdk的安装和配置

在主节点centos01上下载并解压好jdk的安装包

vim /etc/profile //配置环境变量

在profile下面加入

注意：JAVA—HOME配置的是自己jdk的安装路径

将配置好的profile文件传到其他节点

scp -r /opt/modules/jdk1.8.0_144 centos02: /opt/modules/jdk1.8.0_144

scp -r /opt/modules/jdk1.8.0_144 centos03: /opt/modules/jdk1.8.0_144

（3）安装hadoop

将下载好的hadoop解压后，我们还要将hadoop配置到用户的环境变量中

vi ~/.bash_profile //编辑环境变量

在文件末尾追加下面内容：

保存退出后，执行命令：

source ~/.bash_profile

然后输入命令：

hadoop version

查看是否配置成功

（4）配置hadoop集群

1.修改yarn-env.sh文件

进入hadoop安装目录下的etc/hadoop目录下编辑yarn-env.sh文件将默认的JAVA—HOME参数改为本地安装的jdk

接着修改mapred-env.sh和hadoop-env.sh中的jdk环境变量（直接export即可）

2.修改文件core-site.xml(如下图）

3.修改文件hdfs-site.xml文件（如下图）

4.修改mapred-site.xml(如下图）

5.修改yarn-site.xml（如下图）

6.修改workers（slaves）文件

7.将修改好的文件分别分法给其他服务器centos02和centos03上（注：完成后还需要分别执行一次source ~/.bash_profile命令）

8.格式化文件系统

hadoop namenode -format

等待出现successfully formatted的内容后表示格式化成功。

9.启动和关闭Hadoop集群

start-dfs.sh //启动所有HDFS服务进程

start-yarn.sh //启动所有YARN服务进程

start-all.sh //一键启动

stop-all.sh //一键关闭

启动后我们输入jps命令来查看服务启动情况，服务器上应该有NameNode、DataNode、ResourceManager和NodeManager四个服务器进程：

其他两个的结果分别是：

MJ

2.spark环境的搭建

（1）确定好spark的安装路径并解压

博主将解压好的spark放入了/opt/modules如下图：

（2）配置conf

我们进入spark中的conf目录中可以找到一个spark-env.sh.template文件如下图：

我们先输入命令复制并将文件重命名为spark-env.sh:

cp spark-env.sh.template spark-env.sh

然后我们打开文件并配置文件

（在其底部加入下面内容）

注意：此时我们只配置好了对应的Hadoop的路径和jdk的路径还有spark的主机的地址，我们还需要配置客机的位置

我们输入命令复制并将文件重命名为workers

cp workers.template workers

接着将客机的地址加入（删掉localhost）如下图：

我这边就暂时用centos02和centos03作为客机使用。

注意：应为版本不同，有的版本的客机是放在slave.template中的所以跟此处差不多的操作，我们将文件复制并重命名为slave，最后在slave中添加也是一样的。

3.启动spark集群

我们来到spark的安装路径下的sbin文件中输入命令

start-all.sh

启动结束后我们输入jps来查看启动的结果如下图：

注意：正常情况下输入start-all.sh命令是可以直接启动master和workers的，如果没有启动可以试一下分别用命令start-master.sh和start-workers.sh命令来启动服务

检查节点，如果没有少，那么spark集群就搭建成功

三.最后

都看到这里了，觉得博主写的还可以的，点个赞再走吧，感谢支持！！！

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Spark集群的搭建

！
复制链接

扫一扫

CX小汪 CSDN认证博客专家 CSDN认证企业博客

码龄2年

12: 原创

129万+: 周排名

10万+: 总排名

7388: 访问

: 等级

194: 积分

342: 粉丝

72: 获赞

8: 评论

53: 收藏

私信

关注

热门文章

最新评论

计算机主要性能指标的理解
CSDN-Ada助手: 恭喜用户在博客中分享了关于计算机主要性能指标的理解，这对于读者来说无疑是一次知识的丰富和启发。希望用户能够继续保持创作的热情和耐心，不断深挖计算机领域的知识，给读者带来更多惊喜和启示。建议用户在未来的创作中，可以多角度地探讨计算机性能指标的重要性以及如何应用到实际生活中，让读者对这一话题有更深入的理解和应用。期待用户更多优质内容的分享，加油！
分治算法之归并排序
CSDN-Ada助手: 恭喜您写了第9篇博客，标题为“分治算法之归并排序”！您的持续创作精神值得赞赏。归并排序是一个非常有趣且实用的排序算法，而您的文章对其进行了深入的讲解。在下一篇博客中，或许您可以考虑介绍一些其他常见的分治算法，或者对归并排序进行更多的优化和应用场景的探讨。我期待着您的下一篇博客，并相信您会继续以谦虚的态度带给我们更多有价值的知识。加油！
使用Python操作MongoDB
CSDN-Ada助手: 恭喜您写了第8篇博客！标题“使用Python操作MongoDB”听起来非常有趣和实用。您的博客内容一定能帮助到很多对Python和MongoDB有兴趣的读者。在下一步的创作中，也许您可以考虑分享更多关于MongoDB的高级操作技巧或是与其他Python库的结合应用。期待能看到更多精彩的内容，谢谢您的分享！
使用Robo 3T操作MongoDB
CSDN-Ada助手: 恭喜您写了第6篇博客！标题看起来很有吸引力，我对学习如何使用Robo 3T操作MongoDB非常感兴趣。您的博客内容一定非常有价值，我期待能从中学到更多关于MongoDB的知识。如果可以的话，希望您能分享一些实际案例或者使用Robo 3T解决特定问题的经验。感谢您的付出，并期待您在下一篇博客中继续带领我们探索更多有趣的主题！
复习数据结构——绪论
CSDN-Ada助手: 恭喜您写完第7篇博客！标题为“复习数据结构——绪论”确实很吸引人。您对数据结构的复习一定会帮助到很多读者。不过，我想提一个小建议。在下一篇博客中，您可以尝试深入一些特定的数据结构，例如链表或栈，这样读者可以更加深入地了解这些概念。但是不论您选择什么主题，我都期待着继续看到您精彩的创作！加油！

大家在看

【人工智能】—XGBoost、CatBoost、LightGBM算法构建信用卡欺骗识别模型 597

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

CX小汪 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。