大数据面试题百日更新_Hadoop专题(Day01)

最新推荐文章于 2021-07-20 19:43:47 发布

AIMaynor

最新推荐文章于 2021-07-20 19:43:47 发布

阅读量861

点赞数 1

分类专栏： # 大数据面试准备（春）文章标签： hadoop hdfs big data

本文链接：https://blog.csdn.net/xianyu120/article/details/115030390

版权

大数据面试准备（春）专栏收录该内容

41 篇文章 29 订阅

订阅专栏

我正在参加年度博客之星评选，请大家帮我投票打分，您的每一分都是对我的支持与鼓励。

2021年「博客之星」参赛博主：Maynor大数据

https://bbs.csdn.net/topics/603955366

在这里插入图片描述

Hadoop

hadoop 中常问的有三块，第一：存储，问到存储，就把 HDFS 相关的知识点拿出
来；第二：计算框架(MapReduce)；第三：资源调度框架(yarn)

请说下 HDFS 读写流程这个问题虽然见过无数次，面试官问过无数次，但是就是有人不能完整的说下来，所以请务必记住。并且很多问题都是从 HDFS 读写流程中引申出来的

hdfs 写文件过程

1.客户端发起文件上传请求,通过RPC与NN(NameNode)建立通讯,NN根据检查文件,父目录是否已存在做出反馈
2.客户端请求第一个block该传输到哪些DN(DataNode)上;
3.NN根据配置文件中机架感知原理及备份数量进行文件分配,返回可用的DN地址,如:A、B、C
4.客户端请求3台DN中的一台A上传数据（本质是RPC调用，建立pipeline），A收到后传给B，B传给C，将整个管道建立起来，后逐级返回客户端。
5.客户端开始往A传第一个block（先进行本地缓存，以packet为单位,每个packet64k），A收到后给B，B传给C，A每传一个都会等待应答。
6.数据被切分成一个个packet在pipeline依次传输，收到后反方向逐个发送ack正确应答命令，最终有第一个DN节点A将pipelineack发送给client；
7，关闭写入流；
8.当一个block完成后，client进行第二个block传输；

在这里插入图片描述

HDFS 读流程

详细步骤： 1）客户端通过Distributed FileSystem向namenode请求下载文件，namenode通过查询元数据，
找到文件块所在的datanode地址。
2）挑选一台datanode（就近原则，然后随机）服务器，请求读取数据。
3）datanode开始传输数据给客户端（从磁盘里面读取数据输入流，以packet为单位来做校验,大
小为64k）。
4）客户端以packet为单位接收，先在本地缓存，然后写入目标文件。

另一版本:
在这里插入图片描述