本系列博文我也不知道能不能写完, 今天刚刚在新公司申请了4台机器,明天到位,准备打架hadoop环境, 也准备在这里做下笔记,因为之前搭建hadoop环境遇到很多问题,没有详细记录, 今天就在这里记录下。
hadoop 机器分布:
安装操作系统:
centos6.4,为什么选择centos6.4 因为之前做存储的时候, 使用很多新的类库,再低版本没有, 所以选择新一点的,防止出现其他问题,耽搁时间。
机器环境:
192.168.236.201 centos6.2
192.168.236.203 centos6.2
192.168.232.202 centos6.2
机器不在一个网段也不知道会出不会出现什么问题。
1.创建自己的用户:
[root@Hregion2 ~]# useradd libinhadoop
[root@Hregion2 ~]# passwd libinhadoop
用户名: libinhadoop 密码:123456
给用户添加sudo权限
libinhadoop ALL=(ALL) ALL
给用户添加免输入密码权限:
拷贝jdk 到集群机器上
配置环境变量:
13 JRE_HOME=$JAVA_HOME/jre
14
15 PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin
配置这几台机器之间的ssh连接:
参考:
http://younglibin.iteye.com/admin/blogs/1913492
配置hadoop 按照 hadoop 官网找到自己的hadoop版本:
为了以后增加其他组件防止出现不匹配的信息, 所以我是用了:
配置 mapreduce.shuffle的时候,注意这个配置不同版本 有的是mapreduce_shuffle
执行测试测试配置hadoop是否正确:
查看执行结果:
关于wordcount 的原理介绍,以及代码分析,查看本博客的其他关于hadoop的文章!
$ ./bin/yarn/ resourcemanager
$ ./bin/yarn/ nodemanager
[libinhadoop@Hregion2 hadoop-2.0.0-cdh4.6.0]$ jps
24428 NodeManager
23609 ResourceManager
24525 Jps
接下来,需要搭建hadoop集群环境了:
下班明天写..........