Hadoop基础概念科普
HDFS
namenode
存储文件的源数据,如文件名、文件的目录结构、文件属性,以及每个文件的块列表和块所在的DataNode等
datanode
在本地文件系统中存储文件的块数据,以及数据的校验和
secondary namenode
用来监视HDFS的状态的辅助后台程序,每隔一段时间都获取一次HDFS的源数据的快照
YARN
ResourceManager
主要作用为:
- 处理客户端请求;
- 监控NodeManager;
- 启动或监控ApplicationManager;
- 资源分配和调度
NodeManager
主要作用为
- 处理单个节点上的资源
- 处理来自ResourceManager的命令
- 处理来自ApplicationMaster的命令
Application Master
- 负责数据的切分
- 为应用程序申请资源,并分配给内部的任务
- 任务的监控和容错
Container
Container是YARN中的资源的抽象,它封装了某个节点中的多维度资源。如内存、CPU、磁盘、网路等
MapReduce构架概述
MapReduce将构架分为两个过程:Map和Reduce
- Map阶段并行处理输入数据
- Reduce阶段对Map阶段对结果进行汇总
未完待续