Hadoop 中分布式组件工作机制策略及基础思想理论概述

最新推荐文章于 2024-08-05 14:50:50 发布

yidianyidei

最新推荐文章于 2024-08-05 14:50:50 发布

阅读量142

点赞数

分类专栏：从零开始学习大数据-Haddop 文章标签：分布式 hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yidianyidei/article/details/107818077

版权

从零开始学习大数据-Haddop 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

文章目录

- 一 Hadoop 组成

一 Hadoop 组成

hdfs :分布式文件存储系统

mapreduce:分布式计算框架

yarn：分布式资源调度框架

1 HDFS 组成

NN DN 2NN

NN:NameNode 存储事–存储元数据

1）NN

启动加载 Fsimage+edit.log NN （有了最新元数据信息）—>安全模式（99.9% 有一个DN 报告他就会推出安全模式）----工作

集群安全模式

在这里插入图片描述

2）DN:

集群启动–像NN集群注册获取集群id------然后每1 小时像NN 报告块信息---------心跳梅3s 一次-----10分钟+30s 如果没有进行沟通NN 就会认为DN 死掉了

在这里插入图片描述

详细请见

DataNode 工作机制
https://blog.csdn.net/yidianyidei/article/details/107558560

3）2NN

----帮忙NN 把edits 与FSimage 和并成新的 Fsimage 然后再改会 fsimage(持久化)

2nn 每隔1分钟询问是否需要合并-----（距离上次合并1小时/edits 存有100W 数据）
在这里插入图片描述

详细请见

NN 与2NN 之间关系
https://blog.csdn.net/yidianyidei/article/details/107476561

2 数据上传

发送上传数据请求到 NN ---------同意上传---------对数据进行画线 128M （还没切块）----这块128M 发送NN 请求-----同意返回三个DN 副本—顺次发送第一DN

详细请见：

HDFS 上传下载图解
https://blog.csdn.net/yidianyidei/article/details/107476561

3 Mapreduce

核心思想就是Shuffle

过程

文本------切片（128M --判断是否需要切片按1.1倍看 --真切按128M 切）----打成看k,v 值（inputFormat 返回 recordreder–把我们切片读成K,V 值）—maptask 调用recordreader 把数据打成k,v值传输给 mapper–然后context.write(k,v)------输出到环型缓冲区（持续不间断写入 —设计环型原因）-----分区 +排序（在环型缓冲区） -----溢写到文件（分区且有序–在内存）----【shuffle 阶段第一次排序】------merge 归并排序由多个小文件合并成一个大文件【第二次排序】-----根据MapTask 启动相应分区数启动相应redueceTask------将对应maptask分区下载到对应 reducetask 中----把对应分区中maptask 数据进行-groupingcomparation(k,knext)-逻辑归并排序在一个文件【第三次排序】—输入reducer 中--------outputFormat (Recorder writer 写出)

前两次排序在 map 阶段完成最后一次在reduce 中完成
在这里插入图片描述

详细请见

Hadoop-----MapReduce 框架原理(重要)
https://blog.csdn.net/yidianyidei/article/details/107601186

4 Yarn

RM，NM，AM （applicationMaster），Container 组成

1）RM:

1 处理客户端请求

2 监控NM

3 启动或监控 AM

4 资源得分配和调度

2）NM:

1 管理单个节点上的资源

2 处理来自ResourceManger 得命令

3 处理来自 AM 命令

3）AM

1 负责数据切分

2 为应用程序申请资源并分配给内部得任务

3 任务监控与容错

4)Container

运行 AM 以及NM 全部运行在容器中
在这里插入图片描述

详细请见

https://blog.csdn.net/yidianyidei/article/details/107713022

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop 中分布式组件工作机制策略及基础思想理论概述

文章目录一 Hadoop 组成1 HDFS 组成NN集群安全模式DN:详细请见2NN详细请见2 数据上传详细请见：3 Mapreduce过程详细请见4 YarnRM:NM:AMContainer详细请见一 Hadoop 组成hdfs :分布式文件存储系统mapreduce:分布式计算框架yarn：分布式资源调度框架1 HDFS 组成NN DN 2NNNN:NameNode 存储事–存储元数据NN启动加载 Fsimage+edit.log NN （有了最新元数据信息）—>安全模式（99
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。