一:背景:
1.1在部署Apache Hadoop 及周边软件时,随时不是这个启动不了,就是这里哪里有问题:主要表现在:
• 版本管理混乱
• 部署过程繁琐、升级过程复杂
• 兼容性差
• 安全性低
1.2 、社区版本与第三方发行版本的比较
1.Apache社区版本
优点:
完全开源免费。
社区活跃
文档、资料详实
缺点:
----复杂的版本管理。版本管理比较混乱的,各种版本层出不穷,让很多使用者不知所措。
----复杂的集群部署、安装、配置。通常按照集群需要编写大量的配置文件,分发到每一台节点上,容易出错,效率低下。
----复杂的集群运维。对集群的监控,运维,需要安装第三方的其他软件,如ganglia,nagois等,运维难度较大。
----复杂的生态环境。在Hadoop生态圈中,组件的选择、使用,比如Hive,Mahout,Sqoop,Flume,Spark,Oozie等等,需要大量考虑兼容性的问题,版本是否兼容,组件是否有冲突,编译是否能通过等。经常会浪费大量的时间去编译组件,解决版本冲突问题。
2.第三方发行版本(如CDH,HDP,MapR等)
优点:
----基于Apache协议,100%开源。
----版本管理清晰。比如Cloudera