CDH6.2.1安装步骤

最新推荐文章于 2024-08-18 11:45:00 发布

暗东方

最新推荐文章于 2024-08-18 11:45:00 发布

阅读量3.7k

点赞数 1

分类专栏：大数据文章标签：大数据

本文链接：https://blog.csdn.net/weixin_43956381/article/details/103843958

版权

大数据专栏收录该内容

18 篇文章 0 订阅

订阅专栏

1.CM部署准备

1.1 连接服务器

1.2 修改hosts文件

[root@hadoop001 ~]# vim /etc/hosts
127.0.0.1 localhost  localhost
::1     localhost       localhost.localdomain   localhost6      localhost6.localdomain6
172.17.138.24 hadoop102 hadoop102
172.17.138.25 hadoop103 hadoop103
172.17.138.23 hadoop104 hadoop104

注意：这里每个人不一样，ip填写的是私有ip，做完后ping一下。

1.3 SSH免密登录

配置hadoop102对hadoop102、hadoop103、hadoop104三台服务器免密登录。CDH服务开启与关闭是通过server和agent来完成的，所以这里不需要配置SSH免密登录，但是为了我们分发文件方便，在这里我们也配置SSH。
1）生成公钥和私钥：

[root@hadoop102 .ssh]$ ssh-keygen -t rsa

然后敲（三个回车），就会生成两个文件id_rsa（私钥）、id_rsa.pub（公钥）
2）将公钥拷贝到要免密登录的目标机器上

[root@hadoop102 .ssh]$ ssh-copy-id hadoop102
[root@hadoop102 .ssh]$ ssh-copy-id hadoop103
[root@hadoop102 .ssh]$ ssh-copy-id hadoop104

3）重复1和2的操作，配置hadoop103对hadoop102、hadoop103、hadoop104三台服务器免密登录。

1.4 集群同步脚本

linux集群同步脚本

1.5 集群整体操作脚本

linux集群整体操作脚本

1.6 关闭防火墙

阿里云的防火墙默认是关闭的，但是他有web防火墙，我们需要将7180，3306,8888,8889,9870等端口开放。

1.7 关闭SELINUX

安全增强型Linux（Security-Enhanced Linux）简称SELinux，它是一个 Linux 内核模块，也是Linux的一个安全子系统。为了避免安装过程出现各种错误，建议关闭，有如下两种关闭方法：
1）临时关闭（不建议使用）

[root@hadoop102 ~]# setenforce 0

但是这种方式只对当次启动有效，重启机器后会失效。
2）永久关闭（建议使用）
修改配置文件/etc/selinux/config

[root@hadoop102 ~]# vim /etc/selinux/config

将SELINUX=enforcing 改为SELINUX=disabled
SELINUX=disabled
3）同步/etc/selinux/config配置文件

[root@hadoop102 ~]# xsync /etc/selinux/config

4）重启hadoop102、hadoop103、hadoop104主机

[root@hadoop102 ~]# reboot
[root@hadoop103 ~]# reboot
[root@hadoop104 ~]# reboot

1.8 配置NTP时钟同步（阿里云环境可跳过）

1）NTP服务器配置

[root@hadoop102 ~]# vi /etc/ntp.conf
注释掉所有的restrict开头的配置
修改#restrict 192.168.1.0 mask 255.255.255.0 nomodify notrap
为restrict 192.168.1.102 mask 255.255.255.0 nomodify notrap
将所有server配置进行注释
添加下面两行内容
server 127.127.1.0
fudge 127.127.1.0 stratum 10

2）启动NTP服务 service ntpd start

[root@hadoop102 ~]# service ntpd start

3）NTP客户端配置（在agent主机上进行配置hadoop103,hadoop104）

[root@hadoop103 ~]# vi /etc/ntp.conf
注释所有restrict和server配置
添加server 192.168.1.102

4）手动测试

[root@hadoop103~]# ntpdate 192.168.1.102

显示如下内容为成功：

17 Jun 15:34:38 ntpdate[9247]: step time server 192.168.1.102 offset 77556618.173854 sec

如果显示如下内容需要先关闭ntpd：

17 Jun 15:25:42 ntpdate[8885]: the NTP socket is in use, exiting

5）启动ntpd并设置为开机自启（每个节点hadoop102，hadoop103，hadoop104）

[root@hadoop103 ~]#  chkconfig ntpd on
[root@hadoop103 ~]#  service ntpd start

6）使用群发date命令查看结果

2.CM安装部署

2.1 安装JDK（三台）

1）在hadoop102创建/usr/java目录

[root@hadoop102 opt]# mkdir /usr/java

2）用SecureCRT将jdk-8u144-linux-x64.tar.gz上传至hadoop102，并解压到/usr/java目录下。

[root@hadoop102 ~]# tar -zxvf jdk-8u144-linux-x64.tar.gz -C /usr/java/

3）配置JAVA_HOME环境变量
（1）打开/etc/profile文件

[root@hadoop102 software]$ vi /etc/profile

在profile文件末尾添加JDK路径

#JAVA_HOME
export JAVA_HOME=/usr/java/jdk1.8.0_144
export PATH=$PATH:$JAVA_HOME/bin

（2）让修改后的文件生效
[root@hadoop102 jdk1.8.0_144]$ source /etc/profile
4）测试JDK是否安装成功

[root@hadoop102 jdk1.8.0_144]# java -version
java version "1.8.0_144"

5）将hadoop102中的JDK和环境变量分发到hadoop103、hadoop104两台主机

[root@hadoop102 opt]# xsync /usr/java/
[root@hadoop102 opt]# xsync /etc/profile

分别在hadoop103、hadoop104上source一下
[root@hadoop103 ~]$ source /etc/profile
[root@hadoop104 ~]# source /etc/profile

2.2 安装MySQL及其驱动

1）卸载mariadb

rpm -qa | grep mariadb | xargs rpm -e --nodeps

2）下载msql5.7 yum源

wget https://dev.mysql.com/get/mysql57-community-release-el7-9.noarch.rpm

3）安装yum源

rpm -ivh mysql57-community-release-el7-9.noarch.rpm

4）安装mysql

yum -y install mysql-server

5）启动mysql

systemctl start mysqld

6）查看root用户密码

grep 'temporary password' /var/log/mysqld.log

7）执行mysql初始化脚本

mysql_secure_installation

8）输入新密码（至少12个字符，至少包含一个大写字母有，一个小写字母，一个数字，一个特殊字符）
在这里插入图片描述
9）配置root用户远程访问权限

mysql> grant all privileges on *.* to 'root' @'%' identified by 'Atguigu.123456';
mysql> flush privileges;

10）安装mysql驱动
（1）将mysql-connector-java-5.1.27-bin.jar拷贝到/usr/share/java路径下，并重命名

[root@hadoop102 java]# mv mysql-connector-java-5.1.27-bin.jar mysql-connector-java.jar

（2）分发驱动

xsync /usr/share/java

2.3 CM安装

Cloudera Manager默认采用yum安装，对于能够联网的用户，可直接在线安装，十分快捷方便。对于网络不畅的用户，则可搭建本地yum源，进行安装。
1）集群规划

节点	hadoop102	hadoop103	hadoop104
服务	cloudera-scm-server cloudera-scm-agent	cloudera-scm-agent	cloudera-scm-agent

2）下载在线yum源配置文件

cd /etc/yum.repos.d
wget https://archive.cloudera.com/cm6/6.2.1/redhat7/yum/cloudera-manager.repo

3）分发在线yum源配置文件

xsync /etc/yum.repos.d/cloudera-manager.repo

4）搭建本地yum源（若网络环境畅通，此步可直接跳过）
（1）将压缩包cloudera-repos.tar.gz拷贝到集群中的一台节点，解压到/var/www/html路径下

[root@hadoop102 ~]# tar -zxvf cloudera-repos.tar.gz -C /var/www/html

（2）进入/var/www/html/路径，并开启http服务

[root@hadoop102 ~]# cd /var/www/html/
[root@hadoop102 html]# python -m SimpleHTTPServer 8900

（3）浏览器访问该节点的8900端口，查看http服务是否正常开启
（4）编辑本地yum源配置文件

vim /etc/yum.repos.d/cloudera-manager.repo
文件内容如下
[cloudera-manager]
name=cloudera-manager
baseurl=http://hadoop102:8900/cloudera-repos/cm6/6.2.1/redhat7/yum/
enabled=1
gpgcheck=0

（5）分发该配置文件

xsync  /etc/yum.repos.d/cloudera-manager.repo

4）安装CM server及agent

[root@hadoop102 ~]# yum install cloudera-manager-daemons cloudera-manager-agent cloudera-manager-server
[root@hadoop103 ~]# yum install cloudera-manager-agent cloudera-manager-daemons
[root@hadoop104 ~]# yum install cloudera-manager-agent cloudera-manager-daemons

2.4 修改CM配置文件（三台）

vim /etc/cloudera-scm-agent/config.ini

在这里插入图片描述

2.5 在MySQL中建库

1）创建各组件需要的数据库

mysql> CREATE DATABASE scm DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;

mysql> CREATE DATABASE amon DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;

mysql> CREATE DATABASE hue DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;

mysql> CREATE DATABASE hive DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;

mysql> CREATE DATABASE sentry DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;

mysql> CREATE DATABASE oozie DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;

2）为CM配置数据库（自带脚本）

/opt/cloudera/cm/schema/scm_prepare_database.sh mysql scm root Atguigu.123456

1.4.6 启动CM服务
1）启动服务节点：hadoop102

[root@hadoop102 ~]# systemctl start cloudera-scm-server

2）启动工作节点：hadoop102、hadoop103、hadoop104

[root@hadoop102 ~]# systemctl start cloudera-scm-agent
[root@hadoop103 ~]# systemctl start cloudera-scm-agent
[root@hadoop104 ~]# systemctl start cloudera-scm-agent

3）查看Server启动日志

[root@hadoop102 cm]# tail -f /var/log/cloudera-scm-server/cloudera-scm-server.log

出现Started Jetty server字样及表明启动成功。
4）访问http://hadoop102:7180（初始用户名、密码均为admin）

3.部署CDH集群

1）欢迎页面
2）集群命名
3）选定集群物理节点
4）添加本地parcel库（离线安装才有）
5）等待parcel的下载、分配、解压和激活
6）检查集群网络环境
7）选择要安装的CDH组件，选择自定义安装
8）选择需要安装的组件
9）CDH各组件角色分布
10）数据库连接测试
11）各组件基本设置，使用默认即可
12）等待安装部署和启动
13）启动成功

3.1 配置Hadoop支持LZO

1）点击主机，在下拉菜单中点击Parcel
2）点击配置
3）加上gplextras parcel库的url
本地url: http://hadoop102:8900/cloudera-repos/gplextras6/6.2.1/parcels/
远程url: https://archive.cloudera.com/gplextras6/6.2.1/parcels/
4）静待片刻，Parcel列表中出现了GPLEXTERAS，依次点击下载、分配、激活。
5）修改HDFS配置
在HDFS配置项中搜索“压缩编码解码器”，加入com.hadoop.compression.lzo.LzopCodec
6）修改Hive配置
在Hive配置项中搜索“Hive 辅助 JAR 目录”，加入/opt/cloudera/parcels/GPLEXTRAS/lib/hadoop/lib
关闭HDFS中的权限检查：dfs.permissions。
进入HDFS页面点击启用High Availability
7）修改Sqoop配置
在Sqoop的配置项中搜索“sqoop-conf/sqoop-env.sh 的 Sqoop 1 Client 客户端高级配置代码段（安全阀）”，加入以下字段

HADOOP_CLASSPATH=$HADOOP_CLASSPATH:/opt/cloudera/parcels/GPLEXTRAS/lib/hadoop/lib/*
JAVA_LIBRARY_PATH=$JAVA_LIBRARY_PATH:/opt/cloudera/parcels/GPLEXTRAS/lib/hadoop/lib/native

8）重启相关组件

3.2 修改yarn配置参数

1）在yarn配置项中搜索“yarn.nodemanager.resource.memory-mb”，修改成4G。
2）在yarn配置项中搜索“yarn.scheduler.maximum-allocation-mb”，修改成2G。

4.升级之Spark升级

在CDH5.12.1集群中，默认安装的Spark是1.6版本，这里需要将其升级为Spark2.1版本。经查阅官方文档，发现Spark1.6和2.x是可以并行安装的，也就是说可以不用删除默认的1.6版本，可以直接安装2.x版本，它们各自用的端口也是不一样的。
Cloudera发布Apache Spark 2概述(可以在这里面找到安装方法和parcel包的仓库)
cloudera的官网可以下载相关的parcel 的离线安装包：
https://www.cloudera.com/documentation/spark2/latest/topics/spark2_installing.html
Cloudera Manager及5.12.0版本的介绍：
https://www.cloudera.com/documentation/enterprise/latest/topics/cm_ig_parcels.html#cmug_topic_7_11_5__section

4.1 升级过程

4.1.1 离线包下载

1）所需软件：http://archive.cloudera.com/spark2/csd/
2）Parcels 包的下载地址：http://archive.cloudera.com/spark2/parcels/2.4.0.cloudera2/

4.1.2 离线包上传

1）上传文件SPARK2_ON_YARN-2.1.0.cloudera1.jar到/opt/cloudera/csd/下面
2）上传文件SPARK2-2.4.0.cloudera2-1.cdh5.13.3.p0.1041012-el7.parcel和SPARK2-2.4.0.cloudera2-1.cdh5.13.3.p0.1041012-el7.parcel.sha1 到/opt/cloudera/parcel-repo/
3）将SPARK2-2.4.0.cloudera2-1.cdh5.13.3.p0.1041012-el7.parcel.sha1重命名为SPARK2-2.4.0.cloudera2-1.cdh5.13.3.p0.1041012-el7.parcel.sha

[root@hadoop102 parcel-repo]# mv /opt/cloudera/parcel-repo/SPARK2-2.4.0.cloudera2-1.cdh5.13.3.p0.1041012-el7.parcel.sha1 /opt/cloudera/parcel-repo/SPARK2-2.4.0.cloudera2-1.cdh5.13.3.p0.120904-el6.parcel.sha

4.2 页面操作

1）更新Parcel
在cm首页点击Parcel，再点击检查新Parcel
2）点击分配
3）点击激活
4）回到首页点击添加服务
5）点击Spark2继续
如果没有Spark2，则重启server：

[root@hadoop102 ~]# /opt/module/cm/cm-5.16.2/etc/init.d/cloudera-scm-server restart

6）选择一组依赖关系
7）角色分配（需要选择Gateway(客户端) 可以都选）
8）部署并启动
注意：这里我报了一个错：客户端配置 (id=12) 已使用 1 退出，而预期值为 0
1.问题原因：最后找到原因是因为CM安装Spark不会去环境变量去找Java，需要将Java路径添加到CM配置文件
2.解决办法：
找到hadoop102、hadoop103、hadoop104三台机器的配置，配置java主目录

5.其它配置

5.1 HDFS配置域名访问

在阿里云环境下 Hadoop集群必须用域名访问，不能用IP访问，开启如下配置dfs.client.use.datanode.hostname

6.2 设置物理核和虚拟核占比

当前购买的阿里云配置物理核一共为6核，为演示效果将虚拟核扩大1倍，一般真实场景下物理核和虚拟核对比值为1:1或1:2
修改配置，每台机器物理核2核虚拟成4核

6.3修改单个容器下最大cpu申请资源

修改yarn.scheduler.maximum-allocation-vcores参数调整4核

6.4 设置每个任务容器内存大小和单节点大小

将每个任务容器默认大小从1G调大至4G，当前集群环境下每个节点的物理内存为8G，设置每个yarn可用每个节点内存为7G
修改yarn.scheduler.maximum-allocation-mb 每个任务容器内存所需大小
修改yarn.nodemanager.resource.memory-mb每个节点内存所需大小