面试题系列-Hadoop

最新推荐文章于 2024-09-11 10:30:00 发布

ppap1023

最新推荐文章于 2024-09-11 10:30:00 发布

阅读量162

点赞数

分类专栏：面试题系列文章标签： hadoop 大数据 hdfs mapreduce

本文链接：https://blog.csdn.net/weixin_44855638/article/details/119030491

版权

面试题系列专栏收录该内容

1 篇文章 0 订阅

订阅专栏

面试题系列-Hadoop

文章目录

面试题系列-Hadoop

1 HDFS

1.1 HDFS读写流程

两个类：

DistributedFileSystem 分布式文件系统类

FSDataInputStream 文件传输类

1.1.1 HDFS读流程

客户端向namenode发送请求，读取文件，namenode将文件所在的文件块及文件块所在的datanode等元数据信息返回
客户端向相应DataNode发送读取文件块的请求，DataNode返回数据

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IWvFA6ET-1627015758640)(Hadoop.assets/image-20210710112832467.png)]

1.1.2 HDFS写流程

client向NameNode发送请求上传文件，NameNode相应可以上传
client向NameNode请求上传第一个文件块,Name返回3个DataNode节点信息
client和DataNode1建立传输通道，传输数据
传输完成后，DataNode1节点和其他节点建立传输通道，同步数据

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5ywAkrDL-1627015758642)(Hadoop.assets/image-20210710112815420.png)]

2 MR

2.1 MR Shuffle

数据分块，每个分块对应一个map，在map内对数据进行逻辑处理，输出数据为（K，V）结构
map方法后，数据首先进入到分区方法，把数据打好分区标记
然后把数据发送到环形缓冲区，环形缓冲区默认100M，环形缓冲区到达0.8，进行溢写，溢写前对数据进行快排
溢写产生大量小文件，对小文件进行归并排序，做文件合并
对溢写文件也可以进行combiner操作，只能做汇总
reduce端拉取相应分区的文件，拉取完成后做归并排序