Cloudera搭建部署

Cloudera简介

为了构建一个以数据为驱动的业务场景,我们需要一个强大的管理工具去统一并安全地管理我们的业务数据,所以Cloudera做为一个强大的数据中心管理工具为此孕育而生。Cloudera不光提供了自己衍化重新封装的市场领先并100%开源的商业化Apache Hadoop发行版本(CDH, Cloudera’s Distribution including Apache Hadoop)和相关的组件,其中包括了各类安全高效的企业级数据管理工具,如HiveHbase,Oozie, Zookeeper等。 Hadoop是Apache(开源web服务器软件基金会)下的大数据开源项目,许多商业公司会在Apache Hadoop的基础上重新开发成商业版本,Cloudera公司就是其中之一,最近在维护的两个Hadoop版本分别是CDH4和CDH5。Hadoop使用分布式的思想存储,计算和分析数据,它允许多个数据分析计算任务同时作用在同一个数据块上并在集群上进行分布式计算,以此来进行超大规模数据的处理。Hadoop是大数据处理框架的鼻祖之一,同时Cloudera公司的Hadoop版本CDH也是目前使用最广泛的Hadoop商业版本。从广泛意义来说,CDH是Cloudera发布的一个自己封装的商业版软件发行包,里面不仅包含了Cloudera的商业版Hadoop,同时CDH中也包含了各类常用的开源数据处理存储框架,如Spark,Hive,HBase等。

Cloudera作为一个强大的商业版数据中心管理工具,提供了各种能够快速稳定运行的数据计算框架,如Apache Spark;使用Apache Impala做为对HDFS,HBase的高性能SQL查询引擎;也带了Hive数据仓库工具帮助用户分析数据; 用户也能用Cloudera管理安装HBase分布式列式NoSQL数据库;Cloudera还包含了原生的Hadoop搜索引擎以及Cloudera Navigator Optimizer去对Hadoop上的计算任务进行一个可视化的协调优化,提高运行效率;同时Cloudera中提供的各种组件能让用户在一个可视化的UI界面中方便地管理,配置和监控Hadoop以及其它所有相关组件,并有一定的容错容灾处理;Cloudera作为一个广泛使用的商业版数据中心管理工具更是对数据的安全决不妥协!

Cloudera主要发布了3个类型的产品。 
这里写图片描述

QuickStarts产品是提供了不同的虚拟机镜像安装文件,里面已经提前安装和设置好了所有的Cloudera环境和相关组件,包括CDH,Cloudera Manager,Cloudera Impala,Cloudera Search等。其中对于集群版本选择QuickStart Docker,而单节点版本选择QuickStart VM;这些已经预装好所有组件以及环境的虚拟机镜像文件能帮助用户快速地测试和学习Cloudera。 
这里写图片描述

Cloudera Manager产品则是着重于帮助大家管理自己的CDH集群,通过Cloudera Manager统一的UI界面来快速地自动配置和部署CDH和其相关组件,同时Cloudera Manager还提供了各种丰富的可自定义化的监视诊断和报告功能,集群上统一的日志管理功能,统一的集群配置管理和实时配置变更功能,多租户功能,高可用容灾部署功能和自动恢复功能等, 方便企业统一管理和维护自己的数据中心。Cloudera Manager产品也是我们主要的安装内容和介绍对象。它细分为免费的Express版本和功能完全并提供众多增值服务的收费版本Enterprise。QuickStarts和Cloudera Manager都属于是Cloudera Enterprise产品,

Cloudera Director是Cloudera Enterprise 5.2 发布时推出的第三个Cloudera产品,它的主要作用就是提供一个统一的管理和监视中心方便用户能在云服务提供商的服务器上部署CDH和其相关组件,并维护它们。目前Cloudera Director支持的云服务提供商包括亚马逊的AWS,微软的Azure, 谷歌的Google Cloud Platform等。至于对国内阿里云的支持程度作者暂时还没有进行了解。 
这里写图片描述

图片来自:http://blog.cloudera.com/blog/2014/10/inside-cloudera-director/

Cloudera Manager的安装

Cloudera Manager可以说是Cloudera系列产品和组件的核心,它负责统一配置管理CDH集群,基本上本篇文章都是围绕CM的安装部署来展开的,然后再通过CM去安装CDH及其其它相关组件。 
这里写图片描述

图片来自:http://www.cloudera.com/documentation/enterprise/latest/topics/cm_intro_primer.html#concept_wfj_tny_jk

由上面的结构图可知,Cloudera Manager的核心是Cloudera Manager Server。CM Server集成了Admin Console Web Server,提供了统一的UI和API方便用户和集群上的CDH以及其它服务进行交互,并实施监控和诊断等;CM Server还负责安装配置CDH和其相关的服务软件,启动停止服务,维护集群中各个节点服务器以及上面运行的进程。

CM Server主要由下面几个组件组成: 
- Cloudera Manager Agent,安装在集群的所有节点上,负责启动和杀死各个CM管理的服务进程,解压和安装CM管理的服务,自动配置,通过心跳机制监视集群服务器状态(默认每15秒Agent发送心跳给CM Server)等。 
- Management Service,主要是负责集群中各种服务的监视,通知,报告等功能。 
- Database,内置数据库或者使用用户自定义的外部数据库保存CM的配置信息和监控信息。 
- Cloudera Repository 
- Clients,web-based的UI界面方便用户和CM Server进行交互,同时还提供了API供用户自定义Cloudera Manager程序。

本文中介绍的安装方式主要建立在CentOS6.X操作系统上。 
CM的部署主要是安装以下几个组件: 
Oracle的Open JDK 
- Cloudera Manager Server 和 Agent 
- 数据库 
- CDH和要使用的各个组件

Cloudera官方提供了3种主要的安装方式,大家可以根据自己的实际情况选择合适的方式。

PATH A - 使用Cloudera Manager Installer安装CM,然后再通过CM自动部署Oracle JDK,Embedded PostgreSQL,Cloudera Manager Agent,CDH和相关组件

PATH A的安装只适合用作对Cloudera快速的学习和测试,并不适用于实际生产环境的部署,因为它并不适合集群的横向扩容并且集群增长的时候还可能需要做数据迁移。

集群服务器准备

准备至少3台CentOS6.X的服务器,因为Zookeeper要求至少3台以上奇数的服务器才能启动。接着配置3台服务器之间的SSH免密登录,因为HDFS服务器之前的通信和服务的启动都是通过SSH的方式来进行。SSH免密登录的简单配置可以通过以下的方式:

#安装ssh-client
$yum install ssh-client

#在要进行免密登录的客户机上运行下面的命令,有提示时全部按回车就可以
$ssh-keygen 

#这里的IP地址输入的是要远程免密登录的服务器IP地址
$ssh-copy-id  192.168.1.12 
 
 
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 1
  • 2
  • 3
  • 4
  • 5
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值