Hadoop源码解析

六块腹肌的程序猿

已于 2022-05-26 09:26:25 修改

阅读量3.9k

点赞数 4

文章标签： hadoop hdfs java

于 2022-05-25 23:03:48 首次发布

本文链接：https://blog.csdn.net/weixin_44468025/article/details/124900440

版权

本文详细解析了Hadoop的Job提交、切片、NameNode启动、DataNode启动以及HDFS文件上传的源码流程。重点介绍了Job提交时的jar包、切片信息和参数提交，NameNode启动的6个关键步骤，DataNode的启动过程，以及HDFS文件上传的整个流程，包括创建目录、写入数据到DataNode的细节。

摘要由CSDN通过智能技术生成

一、hadoop的Job 提交流程源码

流程图：
在这里插入图片描述

1.从我们编写的mapreduce的代码中进入job提交源码
在这里插入图片描述

支线一：进入connect();

2.支线二：进入submitter.submitJobInternal(Job.this, cluster)，向集群提交了job信息，这里是提交job任务的核心代码

在这里插入图片描述
该方法（submitter.submitJobInternal(Job.this, cluster)）往下翻：

存入了切片信息的本地路径
在这里插入图片描述
submitter.submitJobInternal(Job.this, cluster)方法继续往下走

退出到最先进入的方法：

总结重点：job提交流程源码重点是在本次提交中，集群模式提交了jar包，切片信息和job相关参数信息的xml文件。

二、hadoop的Job 提交流程切片源码

上面Job提交流程中有切片部分，单独拎出来分析
在这里插入图片描述

该方法继续往下走

总结重点：切片大小默认是这样computeSplitSize(Math.max(minSize,Math.min(maxSize,blocksize)))=blocksize=128M，公司里也一般是这个，不过可以修改，切块大小不是精准128M切，而是每次切片时，都要判断切完剩下的部分是否大于块的1.1倍，不大于1.1倍就划分一块切片。