Hadoop集群搭建

最新推荐文章于 2024-04-27 23:53:24 发布

whjcsdnwhj

最新推荐文章于 2024-04-27 23:53:24 发布

阅读量153

点赞数

本文链接：https://blog.csdn.net/whjcsdnwhj/article/details/78441066

版权

 
 ====Hadoop集群====================================================== 

 
 ** 集群 

 
 ** 伪分布式 

 
 集群规划： 

 
 blue01 blue02 blue03  

 
 HDFS namenode SecondaryNamenode 

 
 datanode datanode datanode 

 
 YARN resourcemanager 

 
 nodemanager nodemanager nodemanager 

PS:

 
 ** 快速终止所有java进程，生产环境不建议使用 

 
 $ kill all java  

 
 集群部署： 

 
 一、准备系统环境 

 
 1、主机名[root用户] 

 
 # vi /etc/sysconfig/network 

 
 HOSTNAME=blue01.mydomain --第一台 

 
 HOSTNAME=blue02.mydomain --第二台 

 
 HOSTNAME=blue03.mydomain --第三台 

 
 2、主机名和ip地址的映射 [root用户] [三台服务器] 

 
 # vi /etc/hosts  

 
 # 注意：每台主机的hosts文件里都写入三条，而不是一条 

 
 192.168.122.128 blue01.mydomain 

 
 192.168.122.130 blue02.mydomain 

 
 192.168.122.131 blue03.mydomain 

<--

 
 192.168.106.130 blue01.mydomain 

 
 192.168.106.131 blue02.mydomain 

 
 192.168.106.132 blue03.mydomain 

-->

 
 3、创建普通用户 [root用户] [三台服务器] 

 
 # useradd tom 

 
 # echo blue | passwd --stdin tom  

 
 4、关闭iptables和selinux [root用户] [三台服务器] 

 
 # service iptables status --查看防火墙状态，若开启则关闭 

 
 # service iptables stop --关闭防火墙服务 

 
 # chkconfig iptables off --让iptables开启不启动 

 
 # vi /etc/sysconfig/selinux  

 
 SELINUX=disabled 

 
 5、配置静态IP和DNS [root用户] [三台服务器] 

 
 # vi /etc/sysconfig/network-scripts/ifcfg-eth0，文件名或许有所差别 

 
 BOOTPROTO=static 

 
 IPADDR=192.168.122.128 

 
 NETMASK=255.255.255.0 

 
 GATEWAY=192.168.122.2 

 
 DNS1=192.168.122.2 

 
 # service network restart 

 
 6、把系统启动级别改成“字符模式”(可选) [root用户] [后面两台服务器] ------->不做 

 
 **安装时，类型选择“Basic”，装出来就没有界面 

 
 # vi /etc/inittab 

 
 id:3:initdefault: --改之前值为5，界面登录 

 
 7、卸载多余的JDK [root用户] [三台服务器] 

 
 # rpm -qa | grep -i java 

 
 # rpm -e --nodeps java-1.6.0-openjdk-1.6.0.0-1.50.1.11.5.el6_3.x86_64 

 
 二、配置NTP时间服务器 

 
 # Network Time Protocol，用来同步网络中各个计算机时间的协议 --------> 只配置blue01为时间服务器 

 
 ** 把blue01这台服务器配置为时间服务器 

 
 ** 然后集群内其他服务器都来同步这台服务器的时间 

 
 ** 目的: 集群内所有节点的时间一致 

 
 ***[三台服务器]统一时区： 

 
 # date --当前时间 

 
 # date -R --当前系统时区 

 
 Thu, 25 Aug 2016 14:51:07 +0800 --东8区 

 
 # 如果时区不是东8区 

 
 # rm -rf /etc/localtime 

 
 # ln -s /usr/share/zoneinfo/Asia/Shanghai /etc/localtime --做一个链接，或者在界面上改时区 

 
 *** 在[blue01]上操作：(注意:不是三台) 

 
 1、同步时间 

 
 # ntpdate cn.pool.ntp.org --同步当前服务器时间，网上可以搜索时间服务器 

 
 25 Aug 14:47:41 ntpdate[10105]: step time server 202.112.29.82 offset -9.341897 sec 

 
 2、检查ntp软件包是否安装(可选) 

 
 # rpm -qa | grep ntp 

 
 ntp-4.2.4p8-3.el6.centos.x86_64 

 
 # yum -y install ntp --如果没有安装需要安装ntp 

 
 3、修改ntp配置文件 

 
 # vi /etc/ntp.conf 

a)

 
 ** 去掉下面这行前面的# ,并把网段修改成自己的网段，即允许哪个网段来同步时间 

 
 restrict 192.168.122.0 mask 255.255.255.0 nomodify notrap 

b)

 
 # 注释掉以下几行，禁止它去同步互联网上其他NTP服务器 

 
 #server 0.centos.pool.ntp.org 

 
 #server 1.centos.pool.ntp.org 

 
 #server 2.centos.pool.ntp.org 

c)

 
 # 把下面两行前面的#号去掉,如果没有这两行,需要手动添加 

 
 server 127.127.1.0 #本地系统时钟(BIOS)地址 

 
 fudge 127.127.1.0 stratum 10 

 
 4、启动ntp服务 

 
 # service ntpd start 

 
 # chkconfig ntpd on --开机启动 

 
 # service ntpd status --查看状态 

 
 ** 若需要重启，则# service ntpd restart 

 
 --------------------------------------------------------------------  

 
 ***使[blue02、blue03]同步[blue01]： 

 
 # service ntpd stop  

 
 # chkconfig ntpd off 

 
 # ntpdate blue01.mydomain --去第一台服务器同步时间 

 
 25 Aug 15:16:47 ntpdate[2092]: adjust time server 192.168.17.129 offset 0.311666 sec 

 
 制定计划任务,周期性同步时间,定时任务 

 
 # crontab -e 

 
 */10 * * * * /usr/sbin/ntpdate blue01.mydomain --每10分钟同步一次 

 
 [分 时 日 月 星期] 

 
 # service crond restart 

 
 # crontab -l : 查看contab 

 
 三、配置无密钥登录 

 
 规划：blue01、blue02可以无密钥登录三台主机 

 
 blue01 --> blue01 

 
 blue02 

 
 blue03  

 
 blue02 --> blue01 

 
 blue02 

 
 blue03  

 
 在blue01上：[tom] 

 
 1 生成一对公私钥对 

 
 # su - tom 

 
 $ ssh-keygen -t rsa #一直回车，rsa为指定的加密算法  

 
 ** 执行后，在/home/tom/.ssh/下生成一对文件：id_rsa、id_rsa.pub 

 
 2 把自己的公钥发给blue01、blue02、blue03，会在.ssh/内生成authorized_keys文件 

 
 $ ssh-copy-id blue01.mydomain --需要输入‘yes’和目标节点的密码 

 
 $ ssh-copy-id blue02.mydomain 

 
 $ ssh-copy-id blue03.mydomain 

 
 ***公钥发给了对方，就可以不用输入密码，直接使用私钥登录到对方主机 

 
 $ ssh tom@blue02.mydomain ----->检验 

 
 blue02： 

 
 $ ssh-keygen -t rsa 

 
 $ ssh-copy-id blue01.mydomain #两个公钥都会写在authorized_keys里 

 
 $ ssh-copy-id blue02.mydomain 

 
 $ ssh-copy-id blue03.mydomain 

 
 PS： 

 
 1 若是不成功，则将这两个文件删除，再重新生成这两个文件即可 

 
 2 若是没有ssh-keygen命令 

 
 先用$ which ssh-keygen找到该命令对应文件：/usr/bin/ssh-keygen 

 
 然后用$ rpm -qf /usr/bin/ssh-keygen查找该文件所在的安装包：openssh-5.3p1-84.1.el6.x86_64 

 
 安装该安装包 

 
 四、安装配置JDK(配置blue01) --不用此方法，分别单独安装jdk也可以 

 
 # mkdir /opt/modules/  

 
 # chown tom:tom /opt/modules/ 

 
 # 拷贝jdk目录到后面两台服务器 

 
 $ scp -r jdk1.7.0_67/ blue02.mydomain:/opt/modules/ --远程拷贝命令 

 
 $ scp -r jdk1.7.0_67/ blue03.mydomain:/opt/modules/ 

 
 [blue02、blue03] 

 
 # vi /etc/profile 

 
 ## JAVA HOME 

 
 JAVA_HOME=/opt/modules/jdk1.7.0_67 

 
 export PATH=$PATH:$JAVA_HOME/bin 

 
 ---------------------------------------- 

 
 五、安装配置Hadoop  

 
 *** 面试题：Hadoop的安装步骤 

 
 *** 只要在[blue01]上配置好，拷贝到其他节点即可： 

 
 &&& 和伪分布式不同-0 

 
 $ rm -rf data/ 

 
 1、修改JAVA_HOME 

 
 hadoop-env.sh yarn-env.sh mapred-env.sh 

 
 export JAVA_HOME=/opt/modules/jdk1.7.0_67 

 
 2、core-site.xml 

 
 <property> 

 
 <name>fs.defaultFS</name> 

 
 <value>hdfs://blue01.mydomain:8020</value> 

 
 </property> 

 
 <property> 

 
 <name>hadoop.tmp.dir</name> 

 
 <value>/opt/modules/hadoop-2.5.0/data</value> 

 
 </property>  

 
 &&& 和伪分布式不同-1 

 
 3、修改etc/hadoop/slaves --声明哪些服务器是datanode 

 
 blue01.mydomain 

 
 blue02.mydomain 

 
 blue03.mydomain 

 
 &&& 和伪分布式不同-2 

 
 4、修改hdfs-site.xml 

 
 <property> 

 
 <name>dfs.replication</name> 

 
 <value>3</value> 

 
 </property> 

 
 <property> 

 
 <name>dfs.namenode.secondary.http-address</name> 

 
 <value>blue03.mydomain:50090</value> 

 
 </property> 

 
 <property> 

 
 <name>dfs.namenode.http-address</name> 

 
 <value>blue01.mydomain:50070</value> 

 
 </property> 

 
 <!--关闭权限许可检查--> 

 
 <property> 

 
 <name>dfs.permissions.enabled</name> 

 
 <value>false</value> 

 
 </property> 

 
 5、yarn-site.xml 

 
 <!-- &&& 和伪分布式不同-3 --> 

 
 <property> 

 
 <name>yarn.resourcemanager.hostname</name> 

 
 <value>blue02.mydomain</value> 

 
 </property> 

 
 <property> 

 
 <name>yarn.nodemanager.aux-services</name> 

 
 <value>mapreduce_shuffle</value> 

 
 </property> 

 
 <property> 

 
 <name>yarn.log-aggregation-enable</name> 

 
 <value>true</value> 

 
 </property> 

 
 <property> 

 
 <name>yarn.log-aggregation.retain-seconds</name> 

 
 <value>86400</value> 

 
 </property> 

 
 6、mapred-site.xml --不用改 

 
 <property> 

 
 <name>mapreduce.framework.name</name> 

 
 <value>yarn</value> 

 
 </property>  

 
 <property> 

 
 <name>mapreduce.jobhistory.address</name> 

 
 <value>blue01.mydomain:10020</value> 

 
 </property> 

 
 <property> 

 
 <name>mapreduce.jobhistory.webapp.address</name> 

 
 <value>blue01.mydomain:19888</value> 

 
 </property> 

 
 ## nodemanager不用声明，datanode默认为nodemanager 

 
 7、拷贝hadoop安装目录给其他节点 

 
 $ rm -rf share/doc/ #里面是帮助文档，1.6G，拷贝前可以删除掉 

 
 $ scp -r hadoop-2.5.0/ blue02.mydomain:/opt/modules/ 

 
 $ scp -r hadoop-2.5.0/ blue03.mydomain:/opt/modules/ 

 
 ----启动------------------------------ 

 
 集群规划： 

 
 blue01 blue02 blue03  

 
 HDFS namenode SecondaryNamenode 

 
 datanode datanode datanode 

 
 YARN resourcemanager 

 
 nodemanager nodemanager nodemanager 

 
 六、启动Hadoop  

 
 在[blue01]： 

 
 $ bin/hdfs namenode -format --在data目录里创建出fsimage 

 
 $ sbin/start-dfs.sh --启动HDFS 

 
 在[blue02]: ** 注意 

 
 $ sbin/start-yarn.sh --启动YARN 

 
 三种启动方式 

 
 第一种：分角色启动，比较麻烦 

 
 $ sbin/hadoop-daemon.sh start namenode 

 
 ...... 

 
 第二种：必需配置无密钥登录 

 
 本例中启动了1个namenode、1个SecondaryNamenode和3个datanode 

 
 $ sbin/start-dfs.sh 

 
 $ sbin/start-yarn.sh 

 
 第三种： 

 
 $ sbin/start-all.sh  

 
 七、运行 

 
 http://192.168.122.128:50070/ 

 
 http://192.168.122.130:8088/cluster/ 

whjcsdnwhj

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫