Hadoop源码解析

本文详细解析了Hadoop的Job提交、切片、NameNode启动、DataNode启动以及HDFS文件上传的源码流程。重点介绍了Job提交时的jar包、切片信息和参数提交,NameNode启动的6个关键步骤,DataNode的启动过程,以及HDFS文件上传的整个流程,包括创建目录、写入数据到DataNode的细节。
摘要由CSDN通过智能技术生成

一、hadoop的Job 提交流程源码

流程图:
在这里插入图片描述

1.从我们编写的mapreduce的代码中进入job提交源码
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
支线一:进入connect();
在这里插入图片描述
在这里插入图片描述
2.支线二:进入submitter.submitJobInternal(Job.this, cluster),向集群提交了job信息,这里是提交job任务的核心代码
在这里插入图片描述

在这里插入图片描述
该方法(submitter.submitJobInternal(Job.this, cluster))往下翻:
在这里插入图片描述

存入了切片信息的本地路径
在这里插入图片描述
submitter.submitJobInternal(Job.this, cluster)方法继续往下走
在这里插入图片描述
在这里插入图片描述
退出到最先进入的方法:
在这里插入图片描述
总结重点:job提交流程源码重点是在本次提交中,集群模式提交了jar包,切片信息和job相关参数信息的xml文件。

二、hadoop的Job 提交流程切片源码

上面Job提交流程中有切片部分,单独拎出来分析
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
该方法继续往下走
在这里插入图片描述
总结重点:切片大小默认是这样computeSplitSize(Math.max(minSize,Math.min(maxSize,blocksize)))=blocksize=128M,公司里也一般是这个,不过可以修改,切块大小不是精准128M切,而是每次切片时,都要判断切完剩下的部分是否大于块的1.1倍,不大于1.1倍就划分一块切片。

三、hadoop之NameNode 启动源码解析

NameNode启动代码路线,主要做了途中6件事儿,也就六个路线,接下来一个路线一个路线分析
在这里插入图片描述
1.搜索NameNode类,找到main方法,根据图线路径找到startHttpServer方法
①启动9870端口服务
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
该方法往下翻
在这里插入图片描述
②加载镜像文件和编辑日志
在这里插入图片描述
在这里插入图片描述

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值