最近自己在研究CDH 安装Hadoop集群,CDH 集群的好处就是可以不用手工修改大量的配置文件,然后去分发到所有的机器中,节省大量的人力和时间。效率比较高,一般配合CM 的图形界面来完成所有操作,包括集群的扩展与服务的升级,重启等都可以使用cloudera-manager 来完成。官方也推荐安装的时候通过cm 来部署cdh 集群,而且cm 还自带了一些简单的监控功能,比如对集群中的IO 状态,CPU负载,磁盘和内存的监控,虽然功能不是很强大,没有专门的监控工具( ganglia, zabbix,nagios等) 强大,也可以看一些基本概况,还是不错的哦。当然,如果对于集群的监控有严格要求,需要看详细参数,需要告警机制等可以结合专业的监控工具来完成。
下面简单介绍一下cdh 中遇到的问题。
1. 安装cdh时, spark会读取java路径,而且是从默认的 /usr/share/java下读取。如果没有这个目录就会报错,可能很多朋友都遇到过,在这个地方困扰了很久。 如果没有这个目录,就手动创建好。 然后把MySQL的jdbc.jar 包移动到这个目录下。
2. 安装cdh时,jdbc的jar 包需要重命名一下,就是去除掉版本号。否则会无法识别的,导致数据库连接异常。
3. 安装cdh时,我们会手动创建一个虚拟用户 cloudera-scm ; 这个 用户的作用是为了保证parcel-repo, 和clouder-manager 的所有权,以及cm在执行初始化时执行初始化数据库的脚本要使用这个虚拟用户的。 很重要。
4. 安装cdh 时,在数据