Spark实战环境搭建

最新推荐文章于 2024-06-27 12:30:00 发布

zhaoxiaoba123

最新推荐文章于 2024-06-27 12:30:00 发布

阅读量261

点赞数

文章标签： python 大数据 spark

本文链接：https://blog.csdn.net/zhaoxiaoba123/article/details/108566491

版权

安装服务与环境：
系统：centos 6.4 安装包存放目录：~/software 应用服务安装目录：~/app 数据存放目录/data 脚本存放目录：~/shell
安装应用版本：Java 1.8 Scala 2.11.8 Hadoop cdh5.7 Maven 3.3.9 Python3 Spark

1、安装Java 1.8
1.1、安装包：jdk-8u91-linux-x64.tar.gz
1.2、解压到app安装目录 tar -zxvf ~/software/jdk-8u91-linux-x64.tar.gz -C ~/app/
1.3、切换到jdk的bin目录 cd /home/hadoop/app/jdk1.8.0_91/bin
1.4、验证下是否安装成功 java -version
1.5、把jdk添加到环境变量
vi ~/.bash_profile
进入文件后按 i 进入编辑模式添加如下代码
#JAVA Path
export JAVA_HOME=/home/hadoop/app/jdk1.8.0_91
export PATH= $JAVA_HOME/bin:$ PATH
添加完成后按 esc 键紧接着输入 :wq! 强制保存退出
1.6、退出后输入 source ~/.bash_profile 使其立刻生效
1.7、验证是否生效 echo $JAVA_HOME

2、安装Scala 2.11.8
2.1、安装包：scala-2.11.8.tgz
2.2、解压到app安装目录 tar -zxvf ~/software/scala-2.11.8.tgz -C ~/app/
2.3、把scala添加到环境变量
vi ~/.bash_profile
进入文件后按 i 进入编辑模式添加如下代码
#SCALA Path
export SCALA_HOME=/home/hadoop/app/scala-2.11.8
export PATH= $SCALA_HOME/bin:$ PATH
添加完成后按 esc 键紧接着输入 :wq! 强制保存退出
2.4、退出后输入 source ~/.bash_profile 使其立刻生效
2.5、验证是否生效 echo $SCALA_HOME
2.6、输入scala 验证是否生效

3、安装Hadoop cdh5.7.0
3.1、安装包：hadoop-2.6.0-cdh5.7.0.tar.gz
3.2、解压到app安装目录 tar -zxvf ~/software/hadoop-2.6.0-cdh5.7.0.tar.gz -C ~/app/
3.3、把scala添加到环境变量
vi ~/.bash_profile
进入文件后按 i 进入编辑模式添加如下代码
#HADOOP Path
export HADOOP_HOME=/home/hadoop/app/hadoop-2.6.0-cdh5.7.0
export PATH= $HADOOP_HOME/bin:$ PATH
添加完成后按 esc 键紧接着输入 :wq! 强制保存退出
3.4、退出后输入 source ~/.bash_profile 使其立刻生效
3.5、验证是否生效 echo $HADOOP_HOME
3.6、切换到/home/hadoop/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop目录下修改hadoop-env.sh文件下的这个参数

The java implementation to use.

#export JAVA_HOME=${JAVA_HOME}
export JAVA_HOME=/home/hadoop/app/jdk1.8.0_91
3.7、切换到/home/hadoop/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop目录下修改core-site.xml文件下的这个参数

fs.default.name
hdfs://hadoop000:8020

3.8、切换到/home/hadoop/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop目录下修改hdfs-site.xml文件下的这个参数 tmp目录需要手动提前建立

dfs.namenode.name.dir
/home/hadoop/app/tmp/dfs/name

    <property>
      <name>dfs.datanode.data.dir</name>
      <value>/home/hadoop/app/tmp/dfs/data</value>
    </property>

    <property>
      <name>dfs.replication</name>
      <value>1</value>
    </property>

3.9、切换到/home/hadoop/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop目录下 cp mapred-site.xml.template mapred-site.xml 然后修改mapred-site.xml文件下的参数 mapreduce.framework.name yarn 3.10、切换到/home/hadoop/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop目录下修改yarn-site.xml文件下的这个参数 yarn.nodemanager.aux-services mapreduce_shuffle 3.11、首次搭建需要切换到/home/hadoop/app/hadoop-2.6.0-cdh5.7.0/bin目录格式化之后就千万别再格式化了 ./hadoop namenode -format 格式话成功后会在/home/hadoop/app/tmp/下生成文件 3.12、切换到 /home/hadoop/app/hadoop-2.6.0-cdh5.7.0/sbin 启动dfs ./start-dfs.sh 提示：这里需要提前配置下ssh免密登陆会在别的章节讲解 3.13、输入jps 查看启动后进程以下这三个必须有 NameNode DataNode SecondaryNameNode

然后输入 hadoop fs -ls / 查看是否有文件

没有得话创建一个测试的文件夹 hadoop fs -mkdir /test

上传一个文件到test文件夹下 hadoop fs -put /home/hadoop/app/hadoop-2.6.0-cdh5.7.0/README.txt /test

然后然后输入 hadoop fs -ls /test 查看是否上传成功

成功后查看下上传文件的内容 hadoop fs -text /test/README.txt

还可以通过浏览器访问hadoop 在浏览器输入 http://hadoop000:50070 即可访问查看 hadoop000需要需要提前配置好映射关系

3.14、切换到 /home/hadoop/app/hadoop-2.6.0-cdh5.7.0/sbin 启动
./start-yarn.sh
输入jps 查看启动后进程
NodeManager
ResourceManager

在浏览器输入http://hadoop000:8088

4、安装Maven 3.3.9
4.1、安装包：apache-maven-3.3.9-bin.tar.gz
4.2、解压到app安装目录 tar -zxvf ~/software/apache-maven-3.3.9-bin.tar.gz -C ~/app/
4.3、把scala添加到环境变量
vi ~/.bash_profile
进入文件后按 i 进入编辑模式添加如下代码
#MAVEN Path
export MAVEN_HOME=/home/hadoop/app/apache-maven-3.3.9
export PATH= $MAVEN_HOME/bin:$ PATH
添加完成后按 esc 键紧接着输入 :wq! 强制保存退出
4.4、退出后输入 source ~/.bash_profile 使其立刻生效
4.5、验证是否生效 echo $MAVEN_HOME
4.6、切换到/home/hadoop/
mkdir maven_repository
4.7、切换到 /home/hadoop/app/apache-maven-3.3.9/conf/settings.xml 建议修改下这个参数的默认路径

/home/hadoop/maven_repository
4.8、命令行输入mvn 显示[INFO] BUILD FAILURE表示ok

5、python3 安装 3.6.5
5.1、安装包：Python-3.6.5.tgz
5.2、解压到当前目录 tar -zxvf ~/software/Python-3.6.5.tgz
5.3、提前安装好python3需要的一些依赖包
yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel
5.4、在 ~/app/目录下新建python3 文件夹
mkdir python3
5.5、编译安装切换到~/software/Python-3.6.5执行
./configure --profix=/home/hadoop/app/python3
make && make install
5.7、把scala添加到环境变量
vi ~/.bash_profile
进入文件后按 i 进入编辑模式添加如下代码
#PYTHON Path
export PATH=/home/hadoop/app/python3/bin:/usr/bin/python:$PATH
export PYSPARK_PYTHON=python
添加完成后按 esc 键紧接着输入 :wq! 强制保存退出
5.8、退出后输入 source ~/.bash_profile 使其立刻生效
5.9、验证是否成功输入 python3

6、安装Spark 2.3.0
6.1、安装包：spark-2.3.0.tgz
6.2、解压 tar -zxvf ~/software/spark-2.3.0.tgz
6.3、编译 spark maven的版本必须是3以上 jdk必须是1.8以上
切换到 ~/software/spark-2.3.0/dev/利用make-distribution.sh文件进行编译
./dev/make-distribution.sh --name 2.6.0-cdh5.7.0 --tgz -Pyarn -Phadoop-2.6 -Phive -Phive-thriftserver -Dhadoop.version=2.6.0-cdh5.7.0
执行完后后在 ~/software/spark-2.3.0/生成一个压缩包 spark-2.3.0-bin-2.6.0-cdh5.7.0.tgz
解压这个压缩包到~/app目录下
tar -zxvf ~/software/spark-2.3.0/spark-2.3.0-bin-2.6.0-cdh5.7.0.tgz -C ~/app
完事切换到～/app/spark-2.3.0-bin-2.6.0-cdh5.7.0/bin/
执行 ./spark-shell 查看是否成功
然后就可以访问http:hadoop000:4040查看页面版spark
6.4、把spark添加到环境变量
vi ~/.bash_profile
进入文件后按 i 进入编辑模式添加如下代码
#SPARK Path
export SPARK_HOME=/home/hadoop/app/spark-2.3.0-bin-2.6.0-cdh5.7.0
export PATH= $SPARK_HOME/bin:$ PATH
添加完成后按 esc 键紧接着输入 :wq! 强制保存退出
6.5、退出后输入 source ~/.bash_profile 使其立刻生效

到此Spark的环境就搭建完成了！！！

zhaoxiaoba123

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark实战环境搭建

安装服务与环境：系统：centos 6.4 安装包存放目录：~/software 应用服务安装目录：~/app 数据存放目录/data 脚本存放目录：~/shell安装应用版本：Java 1.8 Scala 2.11.8 Hadoop cdh5.7 Maven 3.3.9 Python3 Spark1、安装Java 1.81.1、安装包：jdk-8u91-linux-x64.tar.gz1.2、解压到app安装目录
复制链接

扫一扫