Hadoop组成
一、HDFS
是一个分布式文件系统
HDFS架构概述:
1、NameNode(nn):
用来存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和块所在的DataNode等
2、DataNode(dn):
在本地文件系统存储文件块数据,以及块数据的校验和
3、Secondary NameNode(2nn):
每隔一段时间对NameNode元数据进行备份。
二、YARN架构概述:
1、ResourceManager(RM):
整个集群资源(内存、CPU等)的管理者
2、NodeManager(NM):
单个节点服务器资源的管理者
3、ApplicationMaster(AM):
单个任务管理者
4、Container:
容器,相当于一台独立的服务器,里面封装了任务运行所需要的资源,如内存,CPU,磁盘,网络等。
三、MapReduce
MapReduce将计算过程分为2个阶段:Map 和 Reduce
Map阶段并行处理输入数据
Reduce阶段对Map处理结果进行汇总