首先来看两个角色,一个是Mr程序,一个是yarn的重要角色ResourceManager。当我们的程序运行到job.waitforcompletion()时,就会创建yarnrunner,产生yarnrunner之后,yarnrunner向ResourceManager申请运行一个应用。ResourceManager给yarnrunner返回一个资源提交路径,让它把要提交的job放到这个路径上;
yarnrunner提交三样东西,job.xml,job.split,jar包程序代码。等这些都提交完后,job申请运行MrAppMaster。于是在ResourceManager内部将用户的请求初始化为一个Task,Task会被放入一个容量调度器,因为此时可能还有其他的Task。
此时就会有一个NodeManager领取Task,领走Task之后先创建一个Container,Container相当于一个小电脑,有cpu+ram。Task都是在Container里面执行的。Container内部会启动一个MrAppMaster,MrAppMaster会从资源提交路径上读取切片信息,随后MrAppMaster向ResourceManager申请运行MapTask的容器,开启相应数量的Maptask。
同样的,NodeManager领走任务之后先创建Container容器,把cpu,ram,jar包拷贝过来,之后由MrAppMaster启动Maptask,开始运行。Maptask运行之后将数据按照分区持久化到磁盘,
MrAppMaster看到计算完成,再次跟ResourceManager申请开启reduceTask, 同样的,NodeManager领走任务之后先创建Container容器,在Container内部运行reduceTask。
reduceTask运行完成之后,由MrAppMaster向ResourceManager申请注销自己。