说明
先把环境直接展示出来,后面再详细记录里面的内容。
本次搭建的环境是真正的分布式环境,由于机器比较少,就直接用docker容器作为介质了。
所需环境
1、ubuntu任意版本都是可以的
2、安装docker
操作
1、集群的架构
2、软件下载地址
配置文件: https://download.csdn.net/download/yunlongl/10718544
软件下载: https://pan.baidu.com/s/12tjasGUmZvVK0l6Ekdg_7A
3、把上述所有软件以及配置文件解压到一个目录
结构如下
到了这里,基本就成功了,接下来就是构建镜像以及启动容器和使用spark了。
容器操作
构建镜像
1、切换到root用户,因为docker的操作是基于root权限的
sudo su
2、构建镜像,只需要运行build脚本就可以了。大约等待10分钟
sh build.sh
3、启动容器,进入config目录
运行
sh start_containers.sh
最终会成功启动5个docker容器
操作spark
1、进入hadoop-master
docker exec -it hadoop-maste /bin/sh
2、进入spark shell,就大功告成了。
pyspark --master spark://hadoop-maste:7077
也可尝试一下sparkContext
最后也可以在spark集群UI中看见这些。
在浏览器输入 虚拟机的
192.168.33.10:18888