安装服务与环境:
系统:centos 6.4 安装包存放目录:~/software 应用服务安装目录:~/app 数据存放目录/data 脚本存放目录:~/shell
安装应用版本:Java 1.8 Scala 2.11.8 Hadoop cdh5.7 Maven 3.3.9 Python3 Spark
1、安装Java 1.8
1.1、安装包:jdk-8u91-linux-x64.tar.gz
1.2、解压到app安装目录 tar -zxvf ~/software/jdk-8u91-linux-x64.tar.gz -C ~/app/
1.3、切换到jdk的bin目录 cd /home/hadoop/app/jdk1.8.0_91/bin
1.4、验证下是否安装成功 java -version
1.5、把jdk添加到环境变量
vi ~/.bash_profile
进入文件后按 i 进入编辑模式添加如下代码
#JAVA Path
export JAVA_HOME=/home/hadoop/app/jdk1.8.0_91
export PATH=
J
A
V
A
H
O
M
E
/
b
i
n
:
JAVA_HOME/bin:
JAVAHOME/bin:PATH
添加完成后按 esc 键 紧接着 输入 :wq! 强制保存退出
1.6、退出后输入 source ~/.bash_profile 使其立刻生效
1.7、验证是否生效 echo $JAVA_HOME
2、安装Scala 2.11.8
2.1、安装包:scala-2.11.8.tgz
2.2、解压到app安装目录 tar -zxvf ~/software/scala-2.11.8.tgz -C ~/app/
2.3、把scala添加到环境变量
vi ~/.bash_profile
进入文件后按 i 进入编辑模式添加如下代码
#SCALA Path
export SCALA_HOME=/home/hadoop/app/scala-2.11.8
export PATH=
S
C
A
L
A
H
O
M
E
/
b
i
n
:
SCALA_HOME/bin:
SCALAHOME/bin:PATH
添加完成后按 esc 键 紧接着 输入 :wq! 强制保存退出
2.4、退出后输入 source ~/.bash_profile 使其立刻生效
2.5、验证是否生效 echo $SCALA_HOME
2.6、输入scala 验证是否生效
3、安装Hadoop cdh5.7.0
3.1、安装包:hadoop-2.6.0-cdh5.7.0.tar.gz
3.2、解压到app安装目录 tar -zxvf ~/software/hadoop-2.6.0-cdh5.7.0.tar.gz -C ~/app/
3.3、把scala添加到环境变量
vi ~/.bash_profile
进入文件后按 i 进入编辑模式添加如下代码
#HADOOP Path
export HADOOP_HOME=/home/hadoop/app/hadoop-2.6.0-cdh5.7.0
export PATH=
H
A
D
O
O
P
H
O
M
E
/
b
i
n
:
HADOOP_HOME/bin:
HADOOPHOME/bin:PATH
添加完成后按 esc 键 紧接着 输入 :wq! 强制保存退出
3.4、退出后输入 source ~/.bash_profile 使其立刻生效
3.5、验证是否生效 echo $HADOOP_HOME
3.6、切换到/home/hadoop/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop目录下修改hadoop-env.sh文件下的这个参数
The java implementation to use.
#export JAVA_HOME=${JAVA_HOME}
export JAVA_HOME=/home/hadoop/app/jdk1.8.0_91
3.7、切换到/home/hadoop/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop目录下修改core-site.xml文件下的这个参数
fs.default.name
hdfs://hadoop000:8020
3.8、切换到/home/hadoop/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop目录下修改hdfs-site.xml文件下的这个参数 tmp目录需要手动提前建立
dfs.namenode.name.dir
/home/hadoop/app/tmp/dfs/name
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/hadoop/app/tmp/dfs/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
3.9、切换到/home/hadoop/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop目录下 cp mapred-site.xml.template mapred-site.xml 然后修改mapred-site.xml文件下的参数 mapreduce.framework.name yarn 3.10、切换到/home/hadoop/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop目录下修改yarn-site.xml文件下的这个参数
yarn.nodemanager.aux-services mapreduce_shuffle 3.11、首次搭建需要切换到/home/hadoop/app/hadoop-2.6.0-cdh5.7.0/bin目录格式化之后就千万别再格式化了 ./hadoop namenode -format 格式话成功后会在/home/hadoop/app/tmp/下生成文件 3.12、切换到 /home/hadoop/app/hadoop-2.6.0-cdh5.7.0/sbin 启动dfs ./start-dfs.sh 提示:这里需要提前配置下ssh免密登陆会在别的章节讲解 3.13、输入jps 查看启动后进程 以下这三个必须有 NameNode DataNode SecondaryNameNode
然后输入 hadoop fs -ls / 查看是否有文件
没有得话创建一个测试的文件夹 hadoop fs -mkdir /test
上传一个文件到test文件夹下 hadoop fs -put /home/hadoop/app/hadoop-2.6.0-cdh5.7.0/README.txt /test
然后然后输入 hadoop fs -ls /test 查看是否上传成功
成功后查看下上传文件的内容 hadoop fs -text /test/README.txt
还可以通过浏览器访问hadoop 在浏览器输入 http://hadoop000:50070 即可访问查看 hadoop000需要需要提前配置好映射关系
3.14、切换到 /home/hadoop/app/hadoop-2.6.0-cdh5.7.0/sbin 启动
./start-yarn.sh
输入jps 查看启动后进程
NodeManager
ResourceManager
在浏览器输入http://hadoop000:8088
4、安装Maven 3.3.9
4.1、安装包:apache-maven-3.3.9-bin.tar.gz
4.2、解压到app安装目录 tar -zxvf ~/software/apache-maven-3.3.9-bin.tar.gz -C ~/app/
4.3、把scala添加到环境变量
vi ~/.bash_profile
进入文件后按 i 进入编辑模式添加如下代码
#MAVEN Path
export MAVEN_HOME=/home/hadoop/app/apache-maven-3.3.9
export PATH=
M
A
V
E
N
H
O
M
E
/
b
i
n
:
MAVEN_HOME/bin:
MAVENHOME/bin:PATH
添加完成后按 esc 键 紧接着 输入 :wq! 强制保存退出
4.4、退出后输入 source ~/.bash_profile 使其立刻生效
4.5、验证是否生效 echo $MAVEN_HOME
4.6、切换到/home/hadoop/
mkdir maven_repository
4.7、切换到 /home/hadoop/app/apache-maven-3.3.9/conf/settings.xml 建议修改下这个参数的默认路径
/home/hadoop/maven_repository
4.8、命令行输入mvn 显示[INFO] BUILD FAILURE表示ok
5、python3 安装 3.6.5
5.1、安装包:Python-3.6.5.tgz
5.2、解压到当前目录 tar -zxvf ~/software/Python-3.6.5.tgz
5.3、提前安装好python3需要的一些依赖包
yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel
5.4、在 ~/app/目录下新建python3 文件夹
mkdir python3
5.5、编译安装 切换到~/software/Python-3.6.5执行
./configure --profix=/home/hadoop/app/python3
make && make install
5.7、把scala添加到环境变量
vi ~/.bash_profile
进入文件后按 i 进入编辑模式添加如下代码
#PYTHON Path
export PATH=/home/hadoop/app/python3/bin:/usr/bin/python:$PATH
export PYSPARK_PYTHON=python
添加完成后按 esc 键 紧接着 输入 :wq! 强制保存退出
5.8、退出后输入 source ~/.bash_profile 使其立刻生效
5.9、验证是否成功输入 python3
6、安装Spark 2.3.0
6.1、安装包:spark-2.3.0.tgz
6.2、解压 tar -zxvf ~/software/spark-2.3.0.tgz
6.3、编译 spark maven的版本必须是3以上 jdk必须是1.8以上
切换到 ~/software/spark-2.3.0/dev/利用make-distribution.sh文件进行编译
./dev/make-distribution.sh --name 2.6.0-cdh5.7.0 --tgz -Pyarn -Phadoop-2.6 -Phive -Phive-thriftserver -Dhadoop.version=2.6.0-cdh5.7.0
执行完后后在 ~/software/spark-2.3.0/生成一个压缩包 spark-2.3.0-bin-2.6.0-cdh5.7.0.tgz
解压这个压缩包到~/app目录下
tar -zxvf ~/software/spark-2.3.0/spark-2.3.0-bin-2.6.0-cdh5.7.0.tgz -C ~/app
完事切换到~/app/spark-2.3.0-bin-2.6.0-cdh5.7.0/bin/
执行 ./spark-shell 查看是否成功
然后就可以访问http:hadoop000:4040查看页面版spark
6.4、把spark添加到环境变量
vi ~/.bash_profile
进入文件后按 i 进入编辑模式添加如下代码
#SPARK Path
export SPARK_HOME=/home/hadoop/app/spark-2.3.0-bin-2.6.0-cdh5.7.0
export PATH=
S
P
A
R
K
H
O
M
E
/
b
i
n
:
SPARK_HOME/bin:
SPARKHOME/bin:PATH
添加完成后按 esc 键 紧接着 输入 :wq! 强制保存退出
6.5、退出后输入 source ~/.bash_profile 使其立刻生效
到此Spark的环境就搭建完成了 !!!