Spark实战环境搭建

安装服务与环境:
系统:centos 6.4 安装包存放目录:~/software 应用服务安装目录:~/app 数据存放目录/data 脚本存放目录:~/shell
安装应用版本:Java 1.8 Scala 2.11.8 Hadoop cdh5.7 Maven 3.3.9 Python3 Spark

1、安装Java 1.8
1.1、安装包:jdk-8u91-linux-x64.tar.gz
1.2、解压到app安装目录 tar -zxvf ~/software/jdk-8u91-linux-x64.tar.gz -C ~/app/
1.3、切换到jdk的bin目录 cd /home/hadoop/app/jdk1.8.0_91/bin
1.4、验证下是否安装成功 java -version
1.5、把jdk添加到环境变量
vi ~/.bash_profile
进入文件后按 i 进入编辑模式添加如下代码
#JAVA Path
export JAVA_HOME=/home/hadoop/app/jdk1.8.0_91
export PATH= J A V A H O M E / b i n : JAVA_HOME/bin: JAVAHOME/bin:PATH
添加完成后按 esc 键 紧接着 输入 :wq! 强制保存退出
1.6、退出后输入 source ~/.bash_profile 使其立刻生效
1.7、验证是否生效 echo $JAVA_HOME

2、安装Scala 2.11.8
2.1、安装包:scala-2.11.8.tgz
2.2、解压到app安装目录 tar -zxvf ~/software/scala-2.11.8.tgz -C ~/app/
2.3、把scala添加到环境变量
vi ~/.bash_profile
进入文件后按 i 进入编辑模式添加如下代码
#SCALA Path
export SCALA_HOME=/home/hadoop/app/scala-2.11.8
export PATH= S C A L A H O M E / b i n : SCALA_HOME/bin: SCALAHOME/bin:PATH
添加完成后按 esc 键 紧接着 输入 :wq! 强制保存退出
2.4、退出后输入 source ~/.bash_profile 使其立刻生效
2.5、验证是否生效 echo $SCALA_HOME
2.6、输入scala 验证是否生效

3、安装Hadoop cdh5.7.0
3.1、安装包:hadoop-2.6.0-cdh5.7.0.tar.gz
3.2、解压到app安装目录 tar -zxvf ~/software/hadoop-2.6.0-cdh5.7.0.tar.gz -C ~/app/
3.3、把scala添加到环境变量
vi ~/.bash_profile
进入文件后按 i 进入编辑模式添加如下代码
#HADOOP Path
export HADOOP_HOME=/home/hadoop/app/hadoop-2.6.0-cdh5.7.0
export PATH= H A D O O P H O M E / b i n : HADOOP_HOME/bin: HADOOPHOME/bin:PATH
添加完成后按 esc 键 紧接着 输入 :wq! 强制保存退出
3.4、退出后输入 source ~/.bash_profile 使其立刻生效
3.5、验证是否生效 echo $HADOOP_HOME
3.6、切换到/home/hadoop/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop目录下修改hadoop-env.sh文件下的这个参数

The java implementation to use.

#export JAVA_HOME=${JAVA_HOME}
export JAVA_HOME=/home/hadoop/app/jdk1.8.0_91
3.7、切换到/home/hadoop/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop目录下修改core-site.xml文件下的这个参数


fs.default.name
hdfs://hadoop000:8020


3.8、切换到/home/hadoop/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop目录下修改hdfs-site.xml文件下的这个参数 tmp目录需要手动提前建立


dfs.namenode.name.dir
/home/hadoop/app/tmp/dfs/name

    <property>
      <name>dfs.datanode.data.dir</name>
      <value>/home/hadoop/app/tmp/dfs/data</value>
    </property>

    <property>
      <name>dfs.replication</name>
      <value>1</value>
    </property>
3.9、切换到/home/hadoop/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop目录下 cp mapred-site.xml.template mapred-site.xml 然后修改mapred-site.xml文件下的参数 mapreduce.framework.name yarn 3.10、切换到/home/hadoop/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop目录下修改yarn-site.xml文件下的这个参数 yarn.nodemanager.aux-services mapreduce_shuffle 3.11、首次搭建需要切换到/home/hadoop/app/hadoop-2.6.0-cdh5.7.0/bin目录格式化之后就千万别再格式化了 ./hadoop namenode -format 格式话成功后会在/home/hadoop/app/tmp/下生成文件 3.12、切换到 /home/hadoop/app/hadoop-2.6.0-cdh5.7.0/sbin 启动dfs ./start-dfs.sh 提示:这里需要提前配置下ssh免密登陆会在别的章节讲解 3.13、输入jps 查看启动后进程 以下这三个必须有 NameNode DataNode SecondaryNameNode

然后输入 hadoop fs -ls / 查看是否有文件

没有得话创建一个测试的文件夹 hadoop fs -mkdir /test

上传一个文件到test文件夹下 hadoop fs -put /home/hadoop/app/hadoop-2.6.0-cdh5.7.0/README.txt /test

然后然后输入 hadoop fs -ls /test 查看是否上传成功

成功后查看下上传文件的内容 hadoop fs -text /test/README.txt

还可以通过浏览器访问hadoop 在浏览器输入 http://hadoop000:50070 即可访问查看 hadoop000需要需要提前配置好映射关系

3.14、切换到 /home/hadoop/app/hadoop-2.6.0-cdh5.7.0/sbin 启动
./start-yarn.sh
输入jps 查看启动后进程
NodeManager
ResourceManager

在浏览器输入http://hadoop000:8088

4、安装Maven 3.3.9
4.1、安装包:apache-maven-3.3.9-bin.tar.gz
4.2、解压到app安装目录 tar -zxvf ~/software/apache-maven-3.3.9-bin.tar.gz -C ~/app/
4.3、把scala添加到环境变量
vi ~/.bash_profile
进入文件后按 i 进入编辑模式添加如下代码
#MAVEN Path
export MAVEN_HOME=/home/hadoop/app/apache-maven-3.3.9
export PATH= M A V E N H O M E / b i n : MAVEN_HOME/bin: MAVENHOME/bin:PATH
添加完成后按 esc 键 紧接着 输入 :wq! 强制保存退出
4.4、退出后输入 source ~/.bash_profile 使其立刻生效
4.5、验证是否生效 echo $MAVEN_HOME
4.6、切换到/home/hadoop/
mkdir maven_repository
4.7、切换到 /home/hadoop/app/apache-maven-3.3.9/conf/settings.xml 建议修改下这个参数的默认路径

/home/hadoop/maven_repository
4.8、命令行输入mvn 显示[INFO] BUILD FAILURE表示ok

5、python3 安装 3.6.5
5.1、安装包:Python-3.6.5.tgz
5.2、解压到当前目录 tar -zxvf ~/software/Python-3.6.5.tgz
5.3、提前安装好python3需要的一些依赖包
yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel
5.4、在 ~/app/目录下新建python3 文件夹
mkdir python3
5.5、编译安装 切换到~/software/Python-3.6.5执行
./configure --profix=/home/hadoop/app/python3
make && make install
5.7、把scala添加到环境变量
vi ~/.bash_profile
进入文件后按 i 进入编辑模式添加如下代码
#PYTHON Path
export PATH=/home/hadoop/app/python3/bin:/usr/bin/python:$PATH
export PYSPARK_PYTHON=python
添加完成后按 esc 键 紧接着 输入 :wq! 强制保存退出
5.8、退出后输入 source ~/.bash_profile 使其立刻生效
5.9、验证是否成功输入 python3

6、安装Spark 2.3.0
6.1、安装包:spark-2.3.0.tgz
6.2、解压 tar -zxvf ~/software/spark-2.3.0.tgz
6.3、编译 spark maven的版本必须是3以上 jdk必须是1.8以上
切换到 ~/software/spark-2.3.0/dev/利用make-distribution.sh文件进行编译
./dev/make-distribution.sh --name 2.6.0-cdh5.7.0 --tgz -Pyarn -Phadoop-2.6 -Phive -Phive-thriftserver -Dhadoop.version=2.6.0-cdh5.7.0
执行完后后在 ~/software/spark-2.3.0/生成一个压缩包 spark-2.3.0-bin-2.6.0-cdh5.7.0.tgz
解压这个压缩包到~/app目录下
tar -zxvf ~/software/spark-2.3.0/spark-2.3.0-bin-2.6.0-cdh5.7.0.tgz -C ~/app
完事切换到~/app/spark-2.3.0-bin-2.6.0-cdh5.7.0/bin/
执行 ./spark-shell 查看是否成功
然后就可以访问http:hadoop000:4040查看页面版spark
6.4、把spark添加到环境变量
vi ~/.bash_profile
进入文件后按 i 进入编辑模式添加如下代码
#SPARK Path
export SPARK_HOME=/home/hadoop/app/spark-2.3.0-bin-2.6.0-cdh5.7.0
export PATH= S P A R K H O M E / b i n : SPARK_HOME/bin: SPARKHOME/bin:PATH
添加完成后按 esc 键 紧接着 输入 :wq! 强制保存退出
6.5、退出后输入 source ~/.bash_profile 使其立刻生效

到此Spark的环境就搭建完成了 !!!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值