文章目录
搭建Spark Standalone集群
步骤1: 实验环境准备测试 (三台机都执行)
1、准备三台虚拟机server1,server2,server3
- 三台1核2G的主机
server1 192.168.100.101
server2 192,168.100.102
server3 192.168.100.103
- 三台主机都已经安装JDK,并在~/.bashrc配置了环境变量
- 三台主机配置好SSH免密码登录
2、修改主机名和IP地址
hostnamectl set-hostname 主机名
exit
回车
hostnamectl set-hostname server1
hostnamectl set-hostname server2
hostnamectl set-hostname server3
查看网卡
ip a
vi /etc/sysconfig/network-scripts/ifcfg-网卡名
vi /etc/sysconfig/network-scripts/ifcfg-ens33
dhcp static #静态网络
no yes
IPADDR=192.168.100.10 #IP地址 server2 192.168.100.102 server3 192.168.100.103
NETMASK=255.255.255.0
GATEWAY=192.168.100.2
DNS1=8.8.8.8
esc :x 保存退出
重启网卡
systemctl restart network
3、修改/etc/hosts
文件
ifconfig查看IP,修改/etc/hosts
文件的中的主机ip地址为最新ip地址。记得替换ip1/2/3。并拷贝到 server1,server2
查看IP
ifconfig
修改/etc/host
vi /etc/hosts
ip1 server1
ip2 server2
ip3 server3
拷贝
scp -r /etc/hosts server2:/etc/hosts
scp -r /etc/hosts server3:/etc/hosts
4、验证免密码登录
验证环境的正确性,在server1中用以下命令验证能免密码登录到server2和server3。同理分别登录server2和server3,测试能免密码登录到server1,server2,server3。
ssh server1
exit
ssh server2
exit
ssh server3
exit
5、测试JDK环境
java -version
步骤2:下载并解压Spark程序包(server1,server2,server3)
1、创建文件夹
mkdir -p /local/package
mkdir -p /local/software
2、下载spark-2.4.5-bin-hadoop2.7.tgz
cd /local/package
wget https://mirror.bit.edu.cn/apache/spark/spark-2.4.5/spark-2.4.5-bin-hadoop2.7.tgz
3、解压到/local/software,改名为spark
tar -xzvf spark-2.4.5-bin-hadoop2.7.tgz -C /local/software
mv spark-2.4.5-bin-hadoop2.7 spark
步骤3:配置Spark(master)
1、修改spark-env.sh
1)进入spark程序包的配置目录,复制Spark配置文件模板spark-env.sh.template
到spark-env.sh
作为配置文件。
cd /local/software/spark/conf
cp spark-env.sh.template spark-env.sh
2)打开spark-env.sh 修改
vi spark-env.sh
添加
SPARK_MASTER_HOST="server1"
SPARK_MASTER_PORT="7077"
SPARK_WORKER_CORES="1"
3、修改slaves
1)复制Spark的slave模板配置文件slaves.template
到slaves
作为配置文件
cd /local/software/spark/conf
cp slaves.template slaves
2)打开slaves,修改
vi slaves
localhost
改为:
server1
server2
server3
4、将master的spark 复制到server2,server3
scp -r /local/software/spark/conf server2:/local/software/conf
scp -r /local/software/spark/conf server3:/local/software/conf
步骤3:启动Spark并验证启动成功
1、在Spark程序包目录运行如下命令并启动Spark
cd /local/software/spark
./sbin/start-all.sh
结果
2、jps查看server1,server2,server3
jps
3、浏览器访问Spark
http://server1:8080/
步骤4:运行SparkPi案例
1、进入Spark程序目录
cd /local/software/spark
2、在终端上运行如下命令来测试SparkPi样例
./bin/run-example --master spark://server1:7077 SparkPi
3、运行中,快速打开Spark信息页面可以看到如下内容:
server1:8080
从图中可以看到,当前的cpu和内存都已经被利用起来
4、在终端输出中可以找到运行的最终结果
5、关闭spark
cd /local/software/spark
./sbin/stop-all.sh