概述
- hadoop发行版本
- apache 基础版本,学习
- cloudera cdh公司常用
- hortonworks 文档好
- 优势
- 高可靠、高扩展、高效、高容错
- 1.x和2.x区别
- 1.x中mapreduce同时处理逻辑运算和资源调度,高耦合(不好)
- 2.x中增加了yarn,由yarn负责资源调度,mapreduce负责运算,低耦合(好)
- 架构
- HDFS
- NameNode(NN)
- 存储文件元数据,如:文件名、目录结构、文件块信息等
- DataNode(DN)
- 存储文件块数据和块数据校验和
- SecondaryNameNode
- 监控hdfs状态的辅助后台程序,每隔一段时间获得hdfs元数据快照
- NameNode(NN)
- YARN
- ResourceManager(RM)
- 处理客户端请求
- 监控NodeManager
- 启动或监控ApplicationMaster(AM)
- 资源分配与调度
- NodeManager(NM)
- 关联单个节点上的资源
- 处理来自RM和AM的命令
- ApplicationMaster
- 数据切分
- 为程序申请资源并分配给内部的task
- task的监控和容错
- Container
- yarn资源的抽象,封装了某个节点上多维度资源,如:内存,cpu,磁盘,网络
- ResourceManager(RM)
- HDFS
-