大数据开发之CDH使用搭建大数据平台

1、CDH介绍

它是Cloudera公司提供的一种大数据平台解决方案。CDH的全称是Cloudera’s Distribution including Apache Hadoop,它是一个开放源代码的大数据平台,基于Apache Hadoop和其他相关的开源技术构建,包括HDFS、MapReduce、HBase、ZooKeeper、Hue、Oozie、Flume、Sqoop等等。

CDH提供了一个完整的大数据解决方案,包括数据管理、数据处理、数据分析和数据可视化等方面,可以帮助用户快速搭建和部署大数据平台,支持多种数据源的处理和集成,同时提供了强大的安全性和可扩展性。

作为大数据开发架构师,熟悉CDH的搭建和使用可以帮助您更好地构建和管理大数据平台,提高数据处理和分析的效率和准确性

2、CDH 与 Hadoop的关系?

实际上,CDH就是对Hadoop生态系统的一种打包和封装,它在Hadoop的基础上进行了定制和优化,提供了更加稳定、安全、易用的大数据平台解决方案。CDH包含了最新版本的Hadoop和相关的开源组件,同时提供了额外的管理工具和支持服务,可以方便用户进行集群的部署、配置、监控和管理等。

因此,可以说CDH是一种基于Hadoop的大数据平台解决方案,它继承了Hadoop的优点,同时提供了更多的功能和服务,可以帮助用户更加高效地构建和管理大数据平台。

优缺点相比
Hadoop的优点:分布式开源免费;灵活可根据需求扩展集群规模;对硬件设备要求低;
Hadoop的缺点:安装和配置复杂,需要专门的运维人员监控
CDH的优点:集成了多个Hadoop生态系统中的工具方便管理,支持高可用和故障转移保证集群的稳定性,提供高级安全性功能;
CDH的缺点:开销大需要更多的资源,是商业发行需要支付费用

3、使用CDH搭建数据平台,需要准备什么?

1、Cloudera Manager:Cloudera Manager是一个企业级的管理和监控平台,用于自动化地完成CDH集群的安装、配置、升级、监控和故障排除等任务。是一个端到端的服务

2、CDH发行版:CDH是Cloudera Distribution of Hadoop的缩写,是一个基于Apache Hadoop的发行版,包含了Hadoop生态系统中的多个组件和工具,如HDFS、MapReduce、HBase、Hive、Spark等。

3、操作系统:CDH支持多种操作系统,如CentOS、RedHat、Ubuntu等。在搭建CDH之前需要先安装和配置操作系统。

4、Java运行环境:CDH需要Java运行环境来运行Hadoop生态系统中的各种组件和工具。需要安装和配置Java运行环境,并设置JAVA_HOME环境变量。

5、数据库:CDH需要使用数据库来存储集群的元数据信息。可以选择使用MySQL或PostgreSQL等关系型数据库。

6、硬件:CDH需要使用多台服务器组成集群,需要选择适当的硬件设备,如CPU、内存、存储等。

7、网络:CDH集群中的各个节点需要通过网络连接,需要进行网络配置和调优。

注意:1和2是两个东西不要混肴,在搭建CDH集群的过程中,首先需要下载和安装CDH软件包,然后使用Cloudera Manager来自动化地完成集群的安装、配置、升级、监控和故障排除等任务。因此,CDH软件包和Cloudera Manager是两个不同的东西,但它们在CDH集群的搭建中都起着重要的作用。
此外集群组件的正常运行还需要一些依赖包,以下是一些常见的CDH依赖包与下载地址:

关于各种依赖包配置问题,可进我的主页搜索
数据开发之CDH搭建所需依赖如何配置?
1、Java运行环境:CDH需要使用Java运行环境来运行Hadoop生态系统中的各种组件和工具。需要安装并配置Java运行环境,并设置JAVA_HOME环境变量。https://www.oracle.com/java/technologies/javase-downloads.html
2、数据库驱动程序:CDH需要使用数据库来存储集群的元数据信息。需要安装并配置MySQL或PostgreSQL等关系型数据库,并下载相应的数据库驱动程序。https://dev.mysql.com/downloads/connector/j/
3、C/C++编译器:CDH中的某些组件需要使用C/C++编译器进行编译和链接。需要安装并配置gcc、g++等编译器。https://gcc.gnu.org/
4、Python库:CDH中的某些组件需要使用Python库进行开发和运行。需要安装并配置Python和相关的Python库,如numpy、pandas等。https://pypi.org/下载安装。
5、其他依赖包:CDH中的其他组件和工具可能需要使用其他依赖包进行开发和运行。具体需要哪些依赖包,可以参考CDH官方文档和相关教程。

CDH相关文档与教程地址

1、CDH官方网站:CDH官方网站提供了丰富的CDH文档和教程资源,包括CDH安装指南、CDH组件使用手册、CDH官方博客等。您可以访问CDH官方网站获取相关资源,网址为:https://www.cloudera.com/products/open-source/apache-hadoop.html

2、Cloudera社区:Cloudera社区是一个开放的社区平台,提供了CDH相关的技术论坛、博客、问答等交流渠道。您可以访问Cloudera社区获取CDH相关的技术支持和资源,网址为:https://community.cloudera.com/

3、CDH用户手册:CDH用户手册是CDH官方文档的一部分,包含了CDH的安装、配置、管理、使用等方面的详细说明。您可以在CDH官方网站下载CDH用户手册的PDF版本,也可以在CDH相关组件的安装目录中找到相应的HTML版本。在终端中输入命令:cd /usr/share/doc/cdh/,找到相应的组件手册。

4、CDH教程:CDH官方网站提供了一些针对CDH的教程,包括CDH入门教程、CDH安全教程、CDH数据处理教程等。您可以在CDH官方网站的教程页面查看和下载相关教程,网址为:https://www.cloudera.com/tutorials.html

需要注意的是,CDH的版本和组件可能会因时间而异,建议在查阅CDH官方文档和相关教程时选择与您使用的版本和组件相对应的文档和教程。同时,您也可以通过搜索引擎、社区论坛等方式获取CDH相关的技术支持和资源。

5、CDH Manager架构及角色介绍

1、Agent:Agent是CDH Manager的工作单元,负责在每个节点上执行管理任务和监控指标的收集,并将结果汇报给CDH Manager Server。Agent具有以下职责:
在节点上安装和配置管理代理程序,用于执行管理任务和监控指标的收集;
收集节点上的运行状况数据和指标信息,并将其发送给CDH Manager Server;
执行CDH Manager Server下发的命令和任务,如启动、停止、重启服务等。

2、Server:Server是CDH Manager的核心组件,负责管理和监控整个Hadoop集群,其职责包括:
维护Hadoop集群的拓扑结构和配置信息;
监控集群中各个服务的运行状况和指标信息;
收集Agent发来的数据,并将其存储在数据库中;
提供Web界面和API接口,方便用户进行集群管理和监控。

3、Database:CDH Manager使用MySQL作为其后端数据库,用于存储集群的配置信息、运行状况数据和指标信息,其职责包括:
存储Hadoop集群的拓扑结构和配置信息;
存储监控指标和运行状况数据;
提供数据查询和分析功能。

4、UI:CDH Manager提供Web界面和API接口,方便用户进行集群管理和监控。其职责包括:
提供用户界面和API接口,方便用户进行集群管理和监控;
显示Hadoop集群的拓扑结构和运行状况信息;
提供服务启动、停止、重启等管理功能;
提供监控指标的图表和数据查询功能。
总体而言,CDH Manager的架构角色和责任包括Agent、Server、Database和UI,它们共同构成了CDH Manager的管理和监控体系,为用户提供了方便、可靠的Hadoop集群管理和监控功能。
在这里插入图片描述

6、CDH 搭建步骤

1、环境准备:
(1)准备一台或多台服务器,可以是虚拟机或物理机,建议使用Linux系统(如CentOS、Ubuntu等)。
(2)在每台服务器上安装Java环境,可以使用yum或apt-get等包管理工具进行安装。例如,在CentOS系统上可以使用以下命令安装Java环境:yum install -y java-1.8.0-openjdk-devel
(3)下载和解压CDH安装包

这段内容是关于在CentOS系统上如何安装CDH(Cloudera Distribution of Hadoop)安装包的。
具体步骤如下:
使用wget命令下载CDH6.3.4的yum仓库文件cloudera-cdh6.repo到/etc/yum.repos.d/目录下:
命令:
wget https://archive.cloudera.com/cdh6/6.3.4/redhat7/yum/cloudera-cdh6.repo -P /etc/yum.repos.d/
这个yum仓库文件包含了CDH6.3.4的各个组件的安装包的下载地址。
使用yum命令安装CDH的各个组件,包括Hadoop(hadoop-hdfs-namenode、hadoop-hdfs-datanode、hadoop-yarn-resourcemanager、hadoop-yarn-nodemanager、hadoop-mapreduce)、HBase(hbase-regionserver、hbase-master)、Hive、Impala(impala-server、impala-shell、impala-catalog、impala-state-store)等:
命令:
yum install -y hadoop-hdfs-namenode hadoop-hdfs-datanode hadoop-yarn-resourcemanager hadoop-yarn-nodemanager hadoop-mapreduce hadoop-hbase hive hbase-regionserver hbase-master impala impala-server impala-shell impala-catalog impala-state-store
这个命令会自动下载并安装CDH的各个组件,其中-y参数表示自动安装依赖的软件包,无需手动确认。

(4)配置主机名和IP地址,在每台服务器上配置唯一的主机名和IP地址,可以使用以下命令进行配置:
配置主机名

hostnamectl set-hostname <hostname>

配置IP地址

nmcli con mod eth0 ipv4.addresses <ip_address>/<subnet_mask> ipv4.gateway <gateway_address>

其中,hostname 为服务器的主机名,<ip_address>为服务器的IP地址,<subnet_mask>为子网掩码,<gateway_address>为网关地址。

配置完成后,可以使用以下命令验证主机名和IP地址是否正确:

hostname
ip addr

(5)配置DNS服务器,在每台服务器上配置DNS服务器,可以使用以下命令进行配置:

echo "nameserver <dns_server_address>" | sudo tee /etc/resolv.conf

其中,<dns_server_address>为DNS服务器的IP地址。

配置完成后,可以使用以下命令测试DNS服务器是否设置成功:

nslookup www.baidu.com

(6)关闭防火墙和SELinux,为了避免防火墙和SELinux对CDH搭建的影响,需要关闭防火墙和SELinux。可以使用以下命令进行关闭:

systemctl stop firewalld
systemctl disable firewalld
sed -i 's/SELINUX=enforcing/SELINUX=disabled/g' /etc/selinux/config
setenforce 0

2、安装和配置Hadoop
(1)配置Hadoop环境,在每台服务器上编辑/etc/hadoop/conf/hadoop-env.sh文件,设置JAVA_HOME和HADOOP_HOME等环境变量,例如:

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk
export HADOOP_HOME=/usr/lib/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

(2)配置Hadoop核心文件,在每台服务器上编辑/etc/hadoop/conf/core-site.xml文件,添加以下配置:

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://<namenode_hostname>:8020</value>
  </property>
</configuration>

其中,<namenode_hostname>为Hadoop的NameNode主机名。

(3)配置Hadoop HDFS,在每台服务器上编辑/etc/hadoop/conf/hdfs-site.xml文件,添加以下配置:

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>3</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/data/dfs/nn</value>
  </property>

(4)配置Hadoop YARN,在每台服务器上编辑/etc/hadoop/conf/yarn-site.xml文件,添加以下配置:

<configuration>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value><resourcemanager_hostname></value>
  </property>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <property>
    <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
    <value>org.apache.hadoop.mapred.ShuffleHandler</value>
  </property>
</configuration>

其中,<resourcemanager_hostname>为Hadoop的ResourceManager主机名。

(5)格式化HDFS,在其中一台服务器上执行以下命令格式化HDFS:
hdfs namenode -format

(6)启动Hadoop,在每台服务器上执行以下命令启动Hadoop:

systemctl start hadoop-hdfs-namenode
systemctl start hadoop-hdfs-datanode
systemctl start hadoop-yarn-resourcemanager
systemctl start hadoop-yarn-nodemanager
systemctl start hadoop-mapreduce-historyserver

可以使用以下命令检查Hadoop是否启动成功:
jps
应该会输出以下进程:
NameNode
SecondaryNameNode
DataNode
ResourceManager
NodeManager
JobHistoryServer

3、安装和配置HBase
1)配置HBase环境,在每台服务器上编辑/etc/hbase/conf/hbase-env.sh文件,设置JAVA_HOME和HBASE_HOME等环境变量,例如:

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk
export HBASE_HOME=/usr/lib/hbase
export PATH=$PATH:$HBASE_HOME/bin

(2)配置HBase,在每台服务器上编辑/etc/hbase/conf/hbase-site.xml文件,添加以下配置:

<configuration>
  <property>
    <name>hbase.rootdir</name>
    <value>hdfs://<namenode_hostname>:8020/hbase</value>
  </property>
  <property>
    <name>hbase.zookeeper.quorum</name>
    <value><zookeeper_hostname_1>,<zookeeper_hostname_2>,<zookeeper_hostname_3></value>
  </property>
</configuration>

其中,<namenode_hostname>为Hadoop的NameNode主机名,<zookeeper_hostname_1>、<zookeeper_hostname_2>和<zookeeper_hostname_3>为ZooKeeper集群中的三个节点的主机名。

(3)启动HBase,在其中一台服务器上执行以下命令启动HBase:
systemctl start hbase-master
systemctl start hbase-regionserver

可以使用以下命令检查HBase是否启动成功:
jps
应该会输出以下进程:

HMaster
HRegionServer
至此,Hadoop和HBase的安装和配置就完成了。可以使用Hadoop的MapReduce和HBase的HBase API来处理大规模数据。

以上搭建步骤仅供参考,具体根据实际情况进行调节;如有错误请指出;谢谢

  • 4
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
CDH是Apache Hadoop和相关项目的最完整,经过测试的流行发行版。 CDH提供了Hadoop的核心元素 - 可扩展的存储和分布式计算 - 以及基于Web的用户界面和重要的企业功能。 CDH是Apache许可的开放源码,是唯一提供统一批处理,交互式SQL和交互式搜索以及基于角色的访问控制的Hadoop解决方案。 Cloudera作为一个强大的商业版数据中心管理工具,提供了各种能够快速稳定运行的数据计算框架,如Apache Spark;使用Apache Impala做为对HDFS,HBase的高性能SQL查询引擎;也带了Hive数据仓库工具帮助用户分析数据; 用户也能用Cloudera管理安装HBase分布式列式NoSQL数据库;Cloudera还包含了原生的Hadoop搜索引擎以及Cloudera Navigator Optimizer去对Hadoop上的计算任务进行一个可视化的协调优化,提高运行效率;同时Cloudera中提供的各种组件能让用户在一个可视化的UI界面中方便地管理,配置和监控Hadoop以及其它所有相关组件,并有一定的容错容灾处理;Cloudera作为一个广泛使用的商业版数据中心管理工具更是对数据的安全决不妥协! CDH 提供: 灵活性 - 存储任何类型的数据,并使用各种不同的计算框架进行处理,包括批处理,交互式SQL,自由文本搜索,机器学习和统计计算。 集成 - 在一个可与广泛的硬件和软件解决方案配合使用的完整Hadoop平台上快速启动并运行。 安全 - 过程和控制敏感数据。 可扩展性 - 启用广泛的应用程序并进行扩展和扩展,以满足您的需求。 高可用性 - 充满信心地执行关键业务任务。 兼容性 - 利用您现有的IT基础设施和资源。
### 回答1: 尚硅谷大数据技术之cdh vmware是一个虚拟机镜像,用于学习和实践大数据技术。 CDH是Cloudera公司的一整套Hadoop生态系统的发行版,包含了Hadoop的核心组件如HDFS、MapReduce、YARN、Hive、HBase等,而尚硅谷大数据技术之cdh vmware是一个已经预装了CDH的虚拟机镜像,方便用户快速使用和学习。 VMware是一款虚拟化软件,可以在一台物理机上运行多个虚拟机,每个虚拟机都可以独立运行自己的操作系统和软件。尚硅谷将CDH预装在VMware中,方便用户在自己的电脑上运行一个基于CDH的虚拟机环境,进行大数据技术的学习和实践。 使用尚硅谷大数据技术之cdh vmware,用户无需自己配置和安装CDH,只需下载并导入到VMware中,即可快速启动CDH环境。这样可以节省用户的时间和精力,让用户更加专注于对CDH的学习和使用。 尚硅谷大数据技术之cdh vmware不仅提供了CDH的基础组件,还包含了一些附加工具和示例数据,帮助用户更好地理解和实践大数据技术。用户可以通过尚硅谷提供的教程和实验来学习和掌握CDH的各项功能和应用场景。 总而言之,尚硅谷大数据技术之cdh vmware是一个方便快捷的大数据技术学习工具,通过预装CDH在VMware中,用户可以轻松构建和管理自己的大数据环境,并进行实际操作和实践。 ### 回答2: 尚硅谷大数据技术之cdh vmware是一个基于VMware虚拟机的大数据解决方案。CDH是Cloudera公司提供的Hadoop生态系统的一个发行版,它包括了Hadoop、Hive、HBase、Spark等大数据处理工具和框架,可以支持大规模数据的存储和分析。 CDH VMWare是尚硅谷提供的一个预配置的CDH虚拟机镜像,使用VMware虚拟化技术,方便用户快速搭建和配置CDH集群环境。它提供了一个简单且易于理解的操作界面,使得用户可以快速上手,无需复杂的配置和搭建过程。 CDH VMWare 可以帮助用户实现以下目标: 1. 快速搭建大数据环境:CDH VMWare提供了一个预先配置好的大数据集群环境,用户只需要简单地导入该镜像文件,即可获得一个完整的CDH集群环境,大大减少了搭建和配置环境的时间和成本。 2. 学习和实践大数据技术:CDH VMWare提供了一个完整的CDH集群环境,用户可以在该环境中学习和实践各种大数据技术和工具,例如Hadoop、Hive、HBase等,帮助用户快速掌握大数据处理的方法和技巧。 3. 开发和测试大数据应用:CDH VMWare提供了一个完整的CDH集群环境,用户可以在该环境中开发和测试各种大数据应用程序,例如基于Hadoop的数据处理程序、基于Spark的数据分析程序等,帮助用户快速验证和调试应用程序的正确性和性能。 总之,尚硅谷大数据技术之CDH VMWare是一个方便快速的大数据解决方案,可以帮助用户快速搭建和配置CDH集群环境,学习和实践大数据技术,以及开发和测试大数据应用程序。 ### 回答3: 尚硅谷是一个IT培训机构,他们提供了大数据技术培训,其中包括了CDH和VMware。 CDH(Cloudera Distributed Hadoop)是一个开源的大数据解决方案,它提供了一个基于Apache Hadoop的完整平台。CDH集成了多个大数据工具和组件,如Hadoop、Spark、Hive和HBase等,使用户可以更加方便地进行大数据处理和分析。通过CDH,用户可以管理和处理大规模的数据集,进行数据存储、计算和查询等操作。 而VMware是一个虚拟化技术提供商,其产品包括VMware Workstation、VMware Fusion和VMware ESXi等。虚拟化技术允许用户在物理服务器上运行多个虚拟机,实现资源的合理利用和管理。在大数据领域,VMware虚拟化技术可以用来部署大数据集群,提供高可用性和灵活性。用户可以在虚拟机中安装CDH,并使用CDH进行大数据处理和分析。 尚硅谷的大数据技术之CDH VMware课程,通过理论和实践相结合的方式,帮助学员掌握CDH和VMware的基本概念、部署与管理技能,并能够运用它们进行大数据的处理和分析。在课程中,学员将会学习CDH和VMware的安装与配置,了解它们的架构和原理,学会使用CDH集群进行数据处理和分析,以及利用VMware虚拟化技术在CDH环境中搭建大数据集群。 通过尚硅谷的大数据技术之CDH VMware课程,学员能够全面了解CDH和VMware在大数据领域的应用,掌握相关技能,并在实际工作中灵活运用,从而有效地处理和分析大规模的数据。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值