Hadoop 带DNS安装配置完整流程（持续完善中）

最新推荐文章于 2024-05-25 17:02:25 发布

游戏泥瓦匠

最新推荐文章于 2024-05-25 17:02:25 发布

阅读量4.6k

点赞数

文章标签： hadoop eclipse插件 dns服务器 java linux centos

本文链接：https://blog.csdn.net/ww_great/article/details/3298898

版权

1. 文件准备
Hadoop安装对系统要求不高，由于是Java开发的系统，因此平台移植性较好。在windows平台下，需要cygwin；在linux下，系统就没有什么要求了。
不过对于Hadoop本身，还需要事先准备好下列软件：
A. bind, ypbind, sshd, 用于配置系统DNS和SSH访问（linux和cygwin下），如果系统内没有安装，需要在安装配置hadoop前准备好。
    Centos下用yum命令安装需要的软件包，Ubuntu下用apt－get，其他平台如RH，可以用rpm。
B. Java SDK，官网上规定为1.5以上，推荐1.6。我们实际在应用的时候用了1.6.0_06版
C. Hadoop安装包，可以从hadoop.apache.org上下载。最近的稳定版本是0.17.2.1，我们在实际应用时用过0.17.2.1，最后用了最新的发行包0.18.2。在实际开发效果上，目前还没有看到有大的差别。0.18.2在运行的时候还是比较稳定的。

2. 系统环境配置
    Hadoop整个系统在最后一步安装hadoop本身过程非常简单，但在能够运行./start-xxx.sh之前，有很多细节需要处理，否则，在运行程序的时候最容易出现的错误就是reduce卡死，让人极为郁闷。我们第一次配置hadoop只用了两个小时（两个节点），运行example里的wordcount也正常，但是当我们开始增加节点的时候，就碰到了很郁闷的问题。百思不得其解后，最终不得不推倒从来。
2.1 Linux系统安装配置（java/磁盘空间相关）
    Hadoop的正常运行需要Java环境，如果需要将这些机器长期作为集群中的节点应用，就需要对系统进行一些好的规划。
    在我们的应用中，由于系统只是处于研究阶段，因此并未对其进行很好的规划，之前的pc server上还有测试用的oracle、mysql等数据库，因此hadoop的数据目录就只能选择在安装目录的内部创建，容量就会受到一定的限制（因大部分磁盘空间的都分配给oracle或是mysql数据库了）。如果最终需要上线，我们建议划分单独的分区给hadoop。
    Java环境的安装很简单，到sun上下载一个压缩包，解压到相应的目录下（案例中为/usr/local/jdk1.6.0_06，并创建了一个符号连接/usr/local/java，当然不创建也是可以的）。配置相应的环境变量JAVA_HOME等，安装完毕。
    之前我们提到的linux系统本身的一些软件包，如bind，ypbind，openssh等，一般系统都已经默认安装。我们的应用里选择了namenode节点所在的机器作为DNS服务器，实际应用中也可以在hadoop集群之外配置DNS。只有DNS才需要安装named服务，datanode节点和namenode节点都是不需要安装bind，ypbind的。

2.2 DNS配置
     DNS配置的目的是降低管理的复杂度。
2.3 SSh配置
2.4 namenode系统配置
2.5 datanode系统配置
3. 系统安装
4. 系统测试
(reduce发生错误的处理方法)
5. 开发环境配置
5.1 IBM的mapred for eclipse插件
5.2 Hadoop自带的eclipse插件
6. 扩展话题
6.1 HBase
6.2 Hive