HDFS
HDFS优势
1、高容错性:提供副本的方式提高容错性
2、适合批处理:移动计算不是移动数据处理
3、适合大数据处理:GB或者TB级别的数据
4、流式文件访问:一次写入,只能追加不能修改
5 、可构建在廉价机器上:
HDFS劣势
1、低延时数据访问:
2、小文件处理:文件名放在namenode里。
3、并发写入,文件随机修改:不支持修改文件。
1.0HDFS基本架构
HDFS2新特性
nameNode HA
1、基于NFS共享存储解决方案
2、基于Qurom Journal Manager(QJM)解决方案
NameNode Federation
1、存在多个NameNode,每个NameNode分管一部分目录
2、NameNode共用DataNode
Hadoop HA架构师
MapReduce的编程模型
MapReduce-编程模型–Combiner
MapReduce-编程模型–Partitioner
MapReduce-基本架构
jobtracker
1、负责资源管理和作业调度
2、负责将作业分解成一系列任务
3、负责将作业指派给TaskTracker
4、负责任务的监控以及错误日志处理
TaskTracker
1、负责运行Map Task和Reduce Task
2、它与JobTracker进行交互,执行jobtracker下达的命令,并向
jobtracker汇报任务状态。
Yarn基本架构
ResourceManager
1、处理客户端请求。
2、启动或者监控ApplicationMaster。
3、监控NodeManager。
4、资源的分配和调度。
NodeManager
1、单个节点上的资源管理。
2、处理来自ResouceManager的命令。
3、处理来自ApplicationMaster的命令。
ApplicationMaster
1、负责数据的切分。
2、为应用程序申请资源并分配给内部的任务。
3、任务的监控与容错。
Container
1、对任务运行环境进行抽象,封装了CPU,内存等多维度的资源以及环境变量,启动命令等任务运行相关的信息。
yarn的工作原理
flume og架构图