角色分配
集群主机一般分为4类:
- Master Hosts: 运行hadoop master进程,比如hdfs的namenode,yarn的resource manager,zookeeper server,history server,jobhistory server等
- Utility Hosts: 运行非master进程,比如Cloudera manager,hive metastore
- Gateway Hosts: 作为客户端节点,提供一些作业的客户端入口,比如hue,hiveserver2,gateway
- Worker Hosts:运行datanode,node manager,regionserver以及其他分布式进程比如impalad
官方参考
Master hosts一般为1-3个节点(高可用)。
Utility Hosts和Gateway Hosts可混合,一共1-3个。
而gateway role不一定要放在gateway hosts上,每个节点都可以在安装节点设置为gateway role(如果一开始没有设置,之后是无法deploy client configuration的)。例如hive和spark都没有worker的概念,所以需要gateway来在个主机上配置client