最重要的事情写在前面,做大数据的时候,环境配置很重要,所以一定要注意自己安装的各种软件版本。本项目采用的是:
1、Hadoop ------2.7.6(一定要和spark相对应)
2、spark----------2.4.3(一定要和Hadoop相对应)
3、jdk-------------jdk1.8.0_221(一定要和scala相对应)
4、Scala---------2.11.12(2.11一定要和kafka对应)
5、zeppelin-----0.8.0
6、kafka---------2.11-2.3.0(2.11一定要和scala对应)
7、spark-steaming-kafka–2.11-2.4.3(2.11是scala的版本号,2.4.3是spark的版本号)
8、spark-steaming-----2.11-2.4.3(2.11是scala的版本号,2.4.3是spark的版本号)
一、配置JDK
1、配置JAVA_HOME的时候,一定要找准自己自己对应的版本,安装scala的时候要求jdk1.8系列,所以配置Java环境的时候,最好安装jdk1.8系列。
2、修改JAVA_HOME的时候,应该配置三个地方的JAVA_HOME环境变量。
- ~/.bashrc里面指定JAVA_HOME
- vim /etc/profile 里
- hadoop-env-sh里
- 执行java -version和$JAVA_HOME/bin/java-version的时候输出的结果一样并且执行echo $JAVA_HOME的时候里面的版本和你设定的一致才算成功。
- 如果配置对了,但是执行的时候错误。建议试试用命令重启java.
二、配置Hadoop
1、启动Hadoop的时候,使用jps命令发现NameNode、DataNode、SecondaryNameNode有些进程不启动的话,往往是java的配置出了问题。
2、Hadoop的版本一定要和spark像对应。
三、配置spark
1、spark的版本一定要和hadoop相对应。
2、使用Kafka的时候,容易出错。建议根据以下网址配置。添加链接描述