一、Hadoop1.X
从Hadoop1.X中出现的缺点就可以知道,为啥会有Yarn的出现
1、JobTracker:资源管理、任务调度
2、TaskTracker:任务管理、资源汇报
3、Client:
(1)会根据每次的计算数据,咨询NameNode元数据(block),计算split,得到一个切片【清单】,map的数量就有了。
split是逻辑的,block是物理的,block身上有(offset、location),split和block有映射关系,由此可以得出split包含偏移量,以及split对应的map任务应该移动到哪些节点,可以支持计算向数据移动。
(2)生成计算程序未来运行时的相关【配置文件】
(3)未来的移动应该相对可靠:Cli会将split清单、配置xml上传到hdfs的目录中
(4)Cli会调用JobTracker,通知要启动一个计算程序了,并且告知文件都放在了hdfs的哪些地方
4、JobTracker收到启动程序之后:
(1)从hdfs中取回【split清单】
(2)根据自己收到的TaskTracker汇报的资源,最终确定一个split对应的map应该去到哪一个节点【确定清单】
(3)未来,TaskTracker在心跳的时候会取回分配给自己的任务信息</