一、存储部分:HDFS
NameNode:记录文件都存储在什么位置
2NN:每隔一段时间就备份一次NameNode的数据
DataNode:真正存储数据的位置以及数据的校验
二、资源调度部分:YARN
(1)ResourceManager(RM):负责整体的资源调度
(2)NodeManager(NM):负责单个节点服务的资源调度
(3)cilent:服务的客户群体
(4)Container:在单个节点内划分出来的一部分资源
(5)ApplicationMaster(AM):单个任务的老大
简单来说在架构了基本的组成(1)(2)后;如果有cilent提交了一个任务,RM会在NM内开辟一个Container,形成一个AM用来管理任务的资源调配;AM就像小领导一样向RM请求资源调配,然后管理任务
*AM申请的资源可以跨单个节点服务器
三、MapReduce
(1)Map:并行处理输入数据
(2)Reduce:汇总结果