AWS EMR Vs HDInsight Vs Aliyun Cloud E-MapReduce之架构篇
从大数据的架构上,我们可以看出AWS EMR和Aliyun Cloud E-MapReduce蛮像的,HDInsight则有些不同。
HDI的节点功能介绍:
Head nodes:一共两台,可提供高可用性。HDFS,Yarn的服务都跑在主节点上,其它服务,比如HiveServer2, Hive Metastore跑在两台头节点上。
Worker nodes:提供数据分析的节点,如果一台节点掉线,那么计算任务就可以迁移到另一台节点上。
Zookeeper nodes:主要是告诉gateway, worker nodes主节点在哪里。
Gateway nodes:安全的考虑。用户没有访问权。
Edge nodes: 可以把它看作是一个submit job的客户端。
AWS EMR的节点功能介绍:
Master Node:HDFS,Yarn的服务都跑在其上。Amazon EMR 5.23.0以上,可以支持三台高可用性。
Core Nodes:Data Node daemon用来协调HDFS数据存储的部分,Task Tracker daemon用来计算。
Task Nodes:主要是用来计算,没有Data Node daemon。
Aliyun Cloud E-MapReduce的节点功能介绍:
基本上和AWS EMR差不多。
以上可以看出Micrsoft HDInsight/AWS EMR/Aliyun Cloud E-MapReduce的主节点都是hadoop的namenode,就datanode不一样吧,同时微软添加了其它节点,比如ZK,Edge。