HDFS概述:Hadoop Distributed File System
是一个分布式文件系统
HDFS架构概述:Name Node (记录数据位置)
储存文件元数据,如文件名,文件目录结构,文件属性,以及文件的块列表和所在的Date Node
Date Node:储存文件数据,以及块数据的校验和
Second NameNode:每隔一段时间对元数据备份
YARN架构概述
YARN是Hadoop的资源管理器
Resource Manager :整个集群资源的老大
Node Manager:单节点服务器资源老大
Application Master:单个任务运行的老大
Container:容器,相当于一台独立的服务器,里面封装了任务运行所需的资源,如CPU、内存、磁盘、网络。
客户端可以有多个;集群可以运行多个Application Master;每个Node Manager上可以有多个Container
MapReduce架构概述
MapReduce将计算过程分为俩阶段:Map和Reduce
Map阶段并行处理输入的数据
Reduce阶段对Map结果进行汇总