第四部分:完全分布式安装
第八步、完全布式环境部署Hadoop
完全分部式是真正利用多台Linux主机来进行部署Hadoop,对Linux机器集群进行规划,使得Hadoop各个模块分别部署在不同的多台机器上。
二十五、环境准备
1、 克隆虚拟机
Vmware左侧选中要克隆的机器,这里对原有的BigData01机器进行克隆,虚拟机菜单中,选中管理菜单下的克隆命令。
选择“创建完整克隆”,虚拟机名称为BigData02,选择虚拟机文件保存路径,进行克隆。
再次克隆一个名为BigData03的虚拟机。
2、 配置网络
修改网卡名称:
在BigData02和BigData03机器上编辑网卡信息。执行sudo vim /etc/udev/rules.d/70-persistent-net.rules命令。因为是从BigData01机器克隆来的,所以会保留BigData01的网卡eth0,并且再添加一个网卡eth1。并且eth0的Mac地址和BigData01的地址是一样的,Mac地址不允许相同,所以要删除eth0,只保留eth1网卡,并且要将eth1改名为eth0。将修改后的eth0的mac地址复制下来,修改network-scripts文件中的HWADDR属性。
sudo vim /etc/sysconfig/network-scripts/ifcfg-eth0
- 1
修改网络参数:
BigData02机器IP改为192.168.100.12
BigData03机器IP改为192.168.100.13
3、 配置Hostname
BigData02配置hostname为 bigdata-senior02.chybinmy.com
BigData03配置hostname为 bigdata-senior03.chybinmy.com
4、 配置hosts
BigData01、BigData02、BigData03三台机器hosts都配置为:
[hadoop@bigdata-senior01 hadoop-2.5.0]$ sudo vim /etc/hosts 192.168.100.10 bigdata-senior01.chybinmy.com 192.168.100.12 bigdata-senior02.chybinmy.com 192.168.100.13 bigdata-senior03.chybinmy.com
- 1
- 2
- 3
- 4
5、 配置Windows上的SSH客户端
在本地Windows中的SSH客户端上添加对BigData02、BigData03机器的SSH链接。
二十六、服务器功能规划
bigdata-senior01.chybinmy.com | bigdata-senior02.chybinmy.com | bigdata-senior03.chybinmy.com |
---|---|---|
NameNode | ResourceManage | |
DataNode | DataNode | DataNode |
NodeManager | NodeManager | NodeManager |
HistoryServer | SecondaryNameNode |
二十七、在第一台机器上安装新的Hadoop
为了和之前BigData01机器上安装伪分布式Hadoop区分开来,我们将BigData01上的Hadoop服务都停止掉,然后在一个新的目录/opt/modules/app下安装另外一个Hadoop。
我们采用先在第一台机器上解压、配置Hadoop,然后再分发到其他两台机器上的方式来安装集群。
6、 解压Hadoop目录:
[hadoop@bigdata-senior01 modules]$ tar -zxf /opt/sofeware/hadoop-2.5.0.tar.gz -C /opt/modules/app/
- 1
7、 配置Hadoop JDK路径修改hadoop-env.sh、mapred-env.sh、yarn-env.sh文件中的JDK路径:
export JAVA_HOME="/opt/modules/jdk1.7.0_67"
- 1
8、 配置core-site.xml
[hadoop@bigdata-senior01 hadoop-2.5.0]$ vim etc/hadoop/core-site.xml
- 1
-
<configuration>
-
<property>
-
<name>fs.defaultFS
</name>
-
<value>hdfs://bigdata-senior01.chybinmy.com:8020
</value>
-
</property>
-
<property>
-
<name>hadoop.tmp.dir
</name>
-
<value>/opt/modules/app/hadoop-2.5.0/data/tmp
</value>
-
</property>
-
</configuration>
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
fs.defaultFS为NameNode的地址。
hadoop.tmp.dir为hadoop临时目录的地址,默认情况下,NameNode和DataNode的数据文件都会存在这个目录下的对应子目录下。应该保证此目录是存在的,如果不存在,先创建。
9、 配置hdfs-site.xml
[hadoop@bigdata-senior01 hadoop-2.5.0]$ vim etc/hadoop/hdfs-site.xml
- 1
-
<configuration>
-
<property>
-
<name>dfs.namenode.secondary.http-address
</name>
-
<value>bigdata-senior03.chybinmy.com:50090
</value>
-
</property>
-
</configuration>
- 1
- 2
- 3
- 4
- 5
- 6
dfs.namenode.secondary.http-address是指定secondaryNameNode的http访问地址和端口号,因为在规划中,我们将BigData03规划为SecondaryNameNode服务器。
所以这里设置为:bigdata-senior03.chybinmy.com:50090
10、 配置slaves
[hadoop@bigdata-senior01 hadoop-2.5.0]$ vim etc/hadoop/slaves bigdata-senior01.chybinmy.com bigdata-senior02.chybinmy.com bigdata-senior03.chybinmy.com
- 1
- 2
- 3
- 4
slaves文件是指定HDFS上有哪些DataNode节点。
11、 配置yarn-site.xml
[hadoop@bigdata-senior01 hadoop-2.5.0]$ vim etc/hadoop/yarn-site.xml
- 1
-
<property>
-
<name>yarn.nodemanager.aux-services
</name>
-
<value>mapreduce_shuffle
</value>
-
</property>
-
<property>
-
<name>yarn.resourcemanager.hostname
</name>
-
<value>bigdata-senior02.chybinmy.com
</value>
-
</property>
-
<property>
-
<name>yarn.log-aggregation-enable
</name>
-
<value>true
</value>
-
</property>
-
<property>
-
<name>yarn.log-aggregation.retain-seconds
</name>
-
<value>106800
</value>
-
</property>
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
根据规划yarn.resourcemanager.hostname
这个指定resourcemanager服务器指向bigdata-senior02.chybinmy.com
。
yarn.log-aggregation-enable
是配置是否启用日志聚集功能。
yarn.log-aggregation.retain-seconds
是配置聚集的日志在HDFS上最多保存多长时间。
12、 配置mapred-site.xml
从mapred-site.xml.template复制一个mapred-site.xml文件。
[hadoop@bigdata-senior01 hadoop-2.5.0]$ cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml
- 1
-
<configuration>
-
<property>
-
<name>mapreduce.framework.name
</name>
-
<value>yarn
</value>
-
</property>
-
<property>
-
<name>mapreduce.jobhistory.address
</name>
-
<value>bigdata-senior01.chybinmy.com:10020
</value>
-
</property>
-
<property>
-
<name>mapreduce.jobhistory.webapp.address
</name>
-
<value>bigdata-senior01.chybinmy.com:19888
</value>
-
</property>
-
</configuration>
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
mapreduce.framework.name设置mapreduce任务运行在yarn上。
mapreduce.jobhistory.address是设置mapreduce的历史服务器安装在BigData01机器上。
mapreduce.jobhistory.webapp.address是设置历史服务器的web页面地址和端口号。
二十八、设置SSH无密码登录
Hadoop集群中的各个机器间会相互地通过SSH访问,每次访问都输入密码是不现实的,所以要配置各个机器间的
SSH是无密码登录的。
1、 在BigData01上生成公钥
[hadoop@bigdata-senior01 hadoop-2.5.0]$ ssh-keygen -t rsa
- 1
一路回车,都设置为默认值,然后再当前用户的Home目录下的.ssh
目录中会生成公钥文件(id_rsa.pub)
和私钥文件(id_rsa)
。
2、 分发公钥
[hadoop@bigdata-senior01 hadoop-2.5.0]$ ssh-copy-id bigdata-senior01.chybinmy.com [hadoop@bigdata-senior01 hadoop-2.5.0]$ ssh-copy-id bigdata-senior02.chybinmy.com [hadoop@bigdata-senior01 hadoop-2.5.0]$ ssh-copy-id bigdata-senior03.chybinmy.com
- 1
- 2
- 3
3、 设置BigData02、BigData03到其他机器的无密钥登录
同样的在BigData02、BigData03上生成公钥和私钥后,将公钥分发到三台机器上。
二十九、分发Hadoop文件
1、 首先在其他两台机器上创建存放Hadoop的目录
[hadoop@bigdata-senior02 ~]$ mkdir /opt/modules/app [hadoop@bigdata-senior03 ~]$ mkdir /opt/modules/app
- 1
- 2
2、 通过Scp分发
Hadoop根目录下的share/doc目录是存放的hadoop的文档,文件相当大,建议在分发之前将这个目录删除掉,可以节省硬盘空间并能提高分发的速度。
doc目录大小有1.6G。
[hadoop@bigdata-senior01 hadoop-2.5.0]$ du -sh /opt/modules/app/hadoop-2.5.0/share/doc 1.6G /opt/modules/app/hadoop-2.5.0/share/doc [hadoop@bigdata-senior01 hadoop-2.5.0]$ scp -r /opt/modules/app/hadoop-2.5.0/ bigdata-senior02.chybinmy.com:/opt/modules/app [hadoop@bigdata-senior01 hadoop-2.5.0]$ scp -r /opt/modules/app/hadoop-2.5.0/ bigdata-senior03.chybinmy.com:/opt/modules/app
- 1
- 2
- 3
- 4
三十、格式NameNode
在NameNode机器上执行格式化:
[hadoop@bigdata-senior01 hadoop-2.5.0]$ /opt/modules/app/hadoop-2.5.0/bin/hdfs namenode –format
- 1
注意:
如果需要重新格式化NameNode,需要先将原来NameNode和DataNode下的文件全部删除,不然会报错,NameNode和DataNode所在目录是在core-site.xml
中hadoop.tmp.dir
、dfs.namenode.name.dir
、dfs.datanode.data.dir
属性配置的。
-
<property>
-
<name>hadoop.tmp.dir
</name>
-
<value>/opt/data/tmp
</value>
-
</property>
-
<property>
-
<name>dfs.namenode.name.dir
</name>
-
<value>file://${hadoop.tmp.dir}/dfs/name
</value>
-
</property>
-
<property>
-
<name>dfs.datanode.data.dir
</name>
-
<value>file://${hadoop.tmp.dir}/dfs/data
</value>
-
</property>
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
因为每次格式化,默认是创建一个集群ID,并写入NameNode和DataNode的VERSION文件中(VERSION文件所在目录为dfs/name/current 和 dfs/data/current),重新格式化时,默认会生成一个新的集群ID,如果不删除原来的目录,会导致namenode中的VERSION文件中是新的集群ID,而DataNode中是旧的集群ID,不一致时会报错。
另一种方法是格式化时指定集群ID参数,指定为旧的集群ID。
三十一、启动集群
1、 启动HDFS
[hadoop@bigdata-senior01 hadoop-2.5.0]$ /opt/modules/app/hadoop-2.5.0/sbin/start-dfs.sh
- 1
2、 启动YARN
[hadoop@bigdata-senior01 hadoop-2.5.0]$ /opt/modules/app/hadoop-2.5.0/sbin/start-yarn.sh
- 1
在BigData02上启动ResourceManager:
[hadoop@bigdata-senior02 hadoop-2.5.0]$ sbin/yarn-daemon.sh start resourcemanager
- 1
3、 启动日志服务器
因为我们规划的是在BigData03服务器上运行MapReduce日志服务,所以要在BigData03上启动。
-
[hadoop
@bigdata-senior03 ~]$ /opt/modules/app/hadoop-
2.5
.0/sbin/mr-jobhistory-daemon.sh start historyserver
-
starting historyserver, logging to /opt/modules/app/hadoop-
2.5
.0/logs/mapred-hadoop-historyserver-bigda ta-senior03.chybinmy.com.out
- 1
- 2
-
[hadoop
@bigdata-senior03 ~]$ jps
-
3570 Jps
-
3537 JobHistoryServer
-
3310 SecondaryNameNode
-
3213 DataNode
-
3392 NodeManager
- 1
- 2
- 3
- 4
- 5
- 6
4、 查看HDFS Web页面
http://bigdata-senior01.chybinmy.com:50070/
5、 查看YARN Web 页面
http://bigdata-senior02.chybinmy.com:8088/cluster
三十二、测试Job
我们这里用hadoop自带的wordcount例子来在本地模式下测试跑mapreduce。
1、 准备mapreduce输入文件wc.input
-
[hadoop
@bigdata-senior01 modules]$ cat /opt/data/wc.input
-
hadoop mapreduce hive
-
hbase spark storm
-
sqoop hadoop hive
-
spark hadoop
- 1
- 2
- 3
- 4
- 5
2、 在HDFS创建输入目录input
[hadoop@bigdata-senior01 hadoop-2.5.0]$ bin/hdfs dfs -mkdir /input
- 1
3、 将wc.input上传到HDFS
[hadoop@bigdata-senior01 hadoop-2.5.0]$ bin/hdfs dfs -put /opt/data/wc.input /input/wc.input
- 1
4、 运行hadoop自带的mapreduce Demo
[hadoop@bigdata-senior01 hadoop-2.5.0]$ bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /input/wc.input /output
- 1
5、 查看输出文件
-
[hadoop
@bigdata-senior01 hadoop-
2.5
.0]$ bin/hdfs dfs -ls /output
-
Found
2 items
-
-rw-r--r--
3 hadoop supergroup
0
2016-
07-
14
16:
36 /output/_SUCCESS
-
-rw-r--r--
3 hadoop supergroup
60
2016-
07-
14
16:
36 /output/part-r-
00000
- 1
- 2
- 3
- 4