(转)Hadoop版本选择

Hadoop版本选择

Hadoop除了Apache这个版本,还有很多第三方的版本,而且已经很好地解决了Hadoop部署管理复杂的问题。所以在此记录一下,也给新人提个醒。

目前Hadoop的发行版除了Apache的开源版本之外,还有
华为发行版、
Intel发行版、
Cloudera发行版(CDH)、
Hortonworks发行版(HDP)、
MapR等,
所有这些发行版均是基于Apache Hadoop衍生出来的,
因为Apache Hadoop的开源协议允许任何人对其进行修改并作为开源或者商业产品发布。

国内大多数公司发行版是收费的,
比如Intel发行版、华为发行版等。
不收费的Hadoop版本主要有国外的四个:
分别是Apache基金会hadoop、Cloudera版本(CDH)、Hortonworks版本(HDP)、MapR版本。

各个免费版本的优缺点

Apache社区版本优缺点

优点:
完全开源免费
社区活跃
文档、资料详实

缺点:
1)复杂的版本管理。版本管理比较混乱,各种版本层出不穷,让使用者不知所措。

2)复杂的集群部署、安装、配置。通常按照集群需要编写大量的配置文件,分发到每一台节点上,容易出错,效率低下。

3)复杂的集群运维。对集群的监控,运维,需要安装第三方的其他软件,如ganglia,nagois等,运维难度较大。

4)复杂的生态环境。在Hadoop生态圈中,组件的选择、使用,比如Hive,Mahout,Sqoop,Flume,Spark,Oozie等等,需要大量考虑兼容性的问题,版本是否兼容,组件是否有冲突,编译是否能通过等。经常会浪费大量的时间去编译组件,解决版本冲突问题。


**第三方发行版本(如CDH,HDP,MapR等)优缺点**

优点:
1)基于Apache协议,100%开源。

2)版本管理清晰。比如Cloudera,CDH1,CDH2,CDH3,CDH4,CDH5等,后面加上补丁版本,如CDH4.1.0 patch level 923.142,表示在原生态Apache Hadoop 0.20.2基础上添加了1065个patch。
比Apache Hadoop在兼容性、安全性、稳定性上有增强。第三方发行版通常都经过了大量的测试验证,有众多部署实例,大量的运行到各种生产环境。
版本更新快。通常情况,比如CDH每个季度会有一个update,每一年会有一个release。
基于稳定版本Apache Hadoop,并应用了最新Bug修复或Feature的patch

3)提供了部署、安装、配置工具,大大提高了集群部署的效率,可以在几个小时内部署好集群。
运维简单。提供了管理、监控、诊断、配置修改的工具,管理配置方便,定位问题快速、准确,使运维工作简单,有效。

缺点:
涉及到厂商锁定的问题。(可以通过技术解决)
总结
综上所述,考虑到大数据平台高效的部署和安装,中心化的配置管理,使用过程中的稳定性、兼容性、扩展性,以及未来较为简单、高效的运维,遇到问题低廉的解决成本。
建议使用第三方发行版本。
其中在第三发发行版中,国内应用较多的是Cloudera的CDH。大家也可以详细对比优缺点,根据自己的需要做选择。

转载自以下博客

https://www.cnblogs.com/jinhaolin/p/6750295.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Hudi是一种开源数据存储和处理框架,它是专为大规模数据湖设计的,可以与Apache Hadoop和其他Hadoop生态系统的工具集集成使用。 Hudi提供了一种将数据存储在Apache Hadoop HDFS上的方法,并允许用户对数据进行更新和删除操作,同时仍然保持数据可查询和可维护。Hudi还提供了一种方法来处理实时数据,支持数据增量更新和全量更新。 Hadoop是一个开源的分布式计算平台,它支持大规模数据存储和处理。Hadoop提供了一个分布式文件系统HDFS,以及一个分布式计算框架MapReduce。Hadoop生态系统中还有许多其他工具,如HBase、Hive、Pig等,这些工具都可以与Hadoop集成使用。 因此,Hudi与Hadoop是兼容的,可以在Hadoop集群上部署和运行,同时也可以与Hadoop生态系统中的其他工具集成使用。 ### 回答2: Hudi是一个基于Hadoop生态系统的开源数据湖工具,旨在支持大规模数据湖上的增量数据更新和流水线操作。由于Hudi是建立在Hadoop之上的,因此它与Hadoop不同的版本是兼容的,包括以下一些主要版本: 1. Hadoop 2.x系列:Hudi与Hadoop 2.x版本兼容,这是目前广泛使用的稳定版本。用户可以使用Hudi来管理和处理位于Hadoop 2.x集群上的数据湖。 2. Hadoop 3.x系列:Hudi也与最新版本Hadoop 3.x兼容。Hadoop 3.x引入了许多新功能和改进,包括容器化支持以及更快的处理速度。这使得用户可以利用Hudi在Hadoop 3.x集群上更高效地管理和处理数据湖。 不管是Hadoop 2.x还是Hadoop 3.x版本,Hudi都提供了丰富的功能和特性,可以方便地进行增量数据更新、事务管理、索引和查询等操作。另外,Hudi还能够与Hadoop生态系统中其他工具集成,比如Hive、Spark和Flink,从而提供更全面的数据湖解决方案。 总结起来,Hudi与Hadoop的多个版本兼容,并且用户可以根据自己的需求选择适合的Hadoop版本来搭建和管理数据湖。 ### 回答3: Hudi是一个开源的大数据存储和处理框架,主要用于在Apache Hadoop平台上管理和实时处理大数据。Hudi是在Hadoop基础上构建的,因此与Hadoop的某些特定版本存在兼容性。 具体来说,Hudi兼容的Hadoop版本主要包括以下几个方面: 1. Apache Hadoop 2.x版本:Hudi与Hadoop 2.x版本(如Hadoop 2.7.x)兼容,可以在这些版本上运行和部署Hudi应用程序。 2. Apache Hadoop 3.x版本:Hudi也对Hadoop的最新版本(如Hadoop 3.1.x、3.2.x等)提供兼容支持。这包括了一些Hadoop新特性的支持,如Hadoop 3.x的容错增强、安全性改进等。 3. Apache Hive集成:Hudi与Hadoop中的数据仓库工具Hive紧密集成,可以通过Hudi提供的API在Hive中进行数据读写和换操作。因此,Hudi也对Hadoop中的Hive版本具有一定的兼容性要求。 4. Apache Spark集成:Hudi还与Hadoop中的大数据处理框架Spark集成,并对Hadoop上的Spark版本具有兼容性。通过Hudi提供的Spark API,可以将Spark用于Hadoop中的Hudi数据处理和分析任务。 总的来说,Hudi与Hadoop的多个版本和相关工具具有兼容性。具体选择哪个Hadoop版本与Hudi兼容,应根据实际需求、环境配置和对Hadoop新特性的需求来决定。在使用Hudi之前,最好确认所选择Hadoop版本与Hudi兼容,以确保系统的稳定性和性能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值