为了学习hadoop和spark,开始了搭建这两的心酸路。下面来介绍下我是如何搭建的,大家可以模仿下,若是有遇到问题,请留言哟。
之前搭建成功过,后来冒出问题,一直没解决掉。这次算是搞定了。
hadoop 搭建
版本hadoop-2.7.1.tar.gz,去官网下载就可以。解压到ubuntu下hadoop用户的目录下。
第一步、配置java环境
去http://www.oracle.com/technetwork/java/javase/downloads/index.html 下载合适你电脑系统的版本,解压到usr下。
按照这篇文章来配置java环境http://jingyan.baidu.com/article/48a42057f1f0a4a925250464.html ,并检测是否安装成功。
第二步、hadoop配置
修改hadoop解压文件下的etc/hadoop下的xml配置文件,如果不存在,请自己创建。(以我的为例)
- hadoop-env.sh 修改配置,增加
export JAVA_HOME=/usr/jdk
Slaves文件修改配置
localhost (写入)mapred-site.xml
下面的localhost要与Slaves的对应一致。
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>localhost</value>
</property>
</configuration>
- core-site.xml
9001是我开放的端口号,你可以自己设置
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9001</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
- yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
第三步、安装ssh
安装
sudo apt-get install openssh-server
启动ssh
/etc/init.d/ssh start
关闭防火墙
sudo ufw disable
设置免密登录
参考博文http://www.cnblogs.com/LazyJoJo/p/6413640.html
第四步、启动服务
先切换到hadoop目录下
- 格式化HDFS
bin/hadoop namenode -format
- 启动HDFS
sbin/start-dfs.sh
- 启动YARN
sbin/start-yarn.sh
第四步、检测是否配置成功
/usr/jdk/bin/jps
9888 SecondaryNameNode
10437 NameNode
7958 ResourceManager
10582 DataNode
10982 Jps
10135 NodeManager
若是类似上述的结果,表明启动成功了。也就安装成功了。
注意:在windows下用虚拟机来安装,需要做进一步修改,不然下一次启动电脑时,所做的都会被还原掉。
在core-site.xml中增加以下两个配置:
<property>
<name>dfs.namenode.name.dir</name>
<value>/home/hadoop/hadoop/dfs/name</value>
</property>
</property>
<name>dfs.datanode.data.dir</name>
<value>/home/hadoop/hadoop/dfs/data</value>
</property>
若是不配置,默认为tmp下,每次启动都会重新一切,哈哈。安装这样来配置后,就不会出现问题了。
spark搭建
下载预编译的包,http://spark.apache.org/downloads.html ,解压到hadoop用户目录下。
先切换到spark目录下。我下载的是spark 2.1-hadoop2.7.1 这个版本的。
第一步,在tmp下建立文件夹hive
第二步、开始用起来
- 调用Python接口
./bin/pyspark
没有报错说明成功了。
- 调用scala接口
./bin/spark-shell
没有报错说明成功了。
http://blog.csdn.net/xxzhangx/article/details/55258263 这篇博客中的能运行,说明装好啦!