基于CDH5部署Spark记录

最新推荐文章于 2023-03-10 10:16:16 发布

why361466788

最新推荐文章于 2023-03-10 10:16:16 发布

阅读量309

点赞数

分类专栏： Spark 文章标签：大数据 java scala

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/why361466788/article/details/84732205

版权

Spark 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1、Scala 安装

http://www.scala-lang.org/files/archive/scala-2.10.3.tgz

# tar xvzf scala-2.10.3.tgz -C /usr/lib/

环境变量配置

export SCALA_HOME=/usr/lib/scala-2.10.3

export PATH=$SCALA_HOME/bin:$PATH

# scala -v

2、Maven 安装

下载maven到服务器,解压并安装

# tar xvzf apache-maven-3.1.1.tgz -C /usr/lib/

环境变量配置

export MAVEN_HOME=/usr/lib/apache-maven-3.1.1

export PATH=$MAVEN_HOME/bin:$PATH

安装成功.

3、Spark 编译

在Spark官网上可以下载到CDH4版本的hadoop对应Spark包，但目前无法下载到CDH5版本的Spark.

所以去Cloudera网站去下载 http://archive.cloudera.com/cdh5/cdh/5/

spark-1.2.0-cdh5.3.2.tar.gz 编译完成的部署包

spark-1.2.0-cdh5.3.2-src.tar.gz 源码包

由于编译完成的包下载后，看到有问题，少文件。所以就用Maven重新编译源码，得出新的部署包，当然，如果下载的部署包不存在问题，那么就不需要重新编译了。

编译需要make-distribution.sh脚本进行编译，可以打开进行查看，如需要编译包含hive等

需要进行以上配置到make-distribution.sh中，详细了解这个脚本就知道了。

然后执行./make-distribution.sh开始进行编译。（也可以执行mvn -DskipTests clean package进行编译，但是它不会生成部署包）

经过漫长的过程，编译成功。(由于这个过程需要下载很多jar，下载很慢，我当时也奋战了很久才弄成功的)

4、Spark 部署

hadoop-2.5.0-cdh5.3.2

hadoop lzo压缩

zookeeper-3.4.5 (Spark HA需要用到)

以上安装就不介绍了，资料很多。

解压部署包:

修改配置文件

export JAVA_HOME=/usr/java/jdk1.7.0_25

export JRE_HOME=$JAVA_HOME/jre

export HADOOP_HOME=/home/hadoop/hadoop-2.5.0-cdh5.3.2

export HADOOP_CONF_DIR=/home/hadoop/hadoop-2.5.0-cdh5.3.2/etc/hadoop

export SCALA_HOME=/usr/lib/scala-2.10.1

#spark on standalone

export SPARK_WORKER_MEMORY=24G

export SPARK_WORKER_INSTANCES=1

export SPARK_WORKER_CORES=24

#spark on yarn

export SPARK_EXECUTOR_INSTANCES=2

export SPARK_EXECUTOR_CORES=12

export SPARK_EXECUTOR_MEMORY=2G

export SPARK_DRIVER_MEMORY=3G

export SPARK_YARN_APP_NAME="Spark ON YARN"

#context

export LD_LIBRARY_PATH=/usr/local/hadoop/lzo/lib

export SPARK_LIBRARY_PATH=$SPARK_LIBRARY_PATH:/home/hadoop/hadoop-2.5.0-cdh5.3.2/lib/native/

export SPARK_CLASSPATH=$SPARK_CLASSPATH:/home/hadoop/hadoop-2.5.0- cdh5.3.2/share/hadoop/common/hadoop-lzo-0.4.20-SNAPSHOT.jar

export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=slave38:2181,slave54:2181,slave55:2181 -Dspark.deploy.zookeeper.dir=/spark"

export SPARK_JAVA_OPTS="-Dspark.cores.max=12 -Dspark.kryoserializer.buffer.mb=30 -verbose:gc -XX:-PrintGCDetails -XX:+PrintGCTimeStamps -XX:MaxPermSize=256m -Dspark.local.dir=/tmp "

添加节点列表 slaves

拷贝到各个机器后启动Spark

./start-all.sh

启动 STANDBY
./start-master.sh

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。