（面试经典问题）HDFS下载文件（读）流程

最新推荐文章于 2024-10-13 20:07:42 发布

原创最新推荐文章于 2024-10-13 20:07:42 发布 · 1.6k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#hdfs #hadoop #大数据

大数据分布式存储专栏收录该内容

3 篇文章

订阅专栏

本文详细介绍了HDFS的读取流程，包括客户端发起读请求、NameNode进行权限及目录检查、获取并返回Block的主机列表等步骤。客户端通过与DataNode建立Pipeline来读取Block，并在本地完成数据合并。

读流程详述

以hadoop fs -get /a.txt /root为例，三副本，文件切成了三个block，分别存放在三台DataNode上。

1.客户端发起下载文件请求。

2.NameNode收到请求后，进行权限检查以及文件目录检查。

3.获取文件的block信息，由于block是三副本，所以会按网络情况进行排序获得主机列表。

4.将三个block的主机列表返回给客户端。之所以返回主机列表是担心只返回一台主机，万一网络出了故障就无法取数据了。

5.客户端同时和三个DataNode建立pipeline(这里只是为了说明过程，而假定的返回的最优主机是三台，实际有可能是一台或者两台，也就是说比如三个block都从DataNode1上取)

6.分别按package为单位读取block。

7.读取完成后，在本地进行合并。

面试问题

1.请简述HDFS读流程

客户端发起读请求，NameNode进行权限检查以及文件目录检查，之后获取block的主机列表返回给客户端。客户端和每个列表的第一台主机建立pipeline开始读数据。读完后在本地合并。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

铁人史大颗

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

大数据面试题（一）：HDFS核心高频面试题

Lansonli（蓝深李）的博客

11-02

2170

HA(High Available)，高可用，是保证业务连续性的有效解决方案,一般有两个或两个以上的节点，分为活动节点（ Active ）及备用节点（ Standby））。用于实现业务的不中断或短暂中断NN 是 HDFS 集群的单点故障点.在 HA 具体实现方法不同情况下，HA 框架的流程是一致的, 不一致的就是如何存储、管理、同步 edits 编辑日志文件。

HDFS（六）—— HDFS 文件下载的过程

热门推荐

11-25

1万+

五、在内存中查找文件的元信息数据的元信息是优先存储在内存中的，所以 NameNode 会优先去内存中查找。为了保证元信息的查找速率，通常我们会使用 NameNode 的联盟对内存容量进行扩展。六、在 fsimage 文件中查找文件的元信息

参与评论您还未登录，请先登录后发表或查看评论

HDFS文件的下载

05-21

hdfs文件的下载

hdfs上传和下载文件的流程

qq_39047789的博客

01-11

1951

一、上传文件 1、客户端上传文件客户端向namenode发送数据上传的请求（包含数据的长度信息） hadoop fd -put / / （以上传200M文件为例） 2.namenode检查工作 namenode收到客户端请求之后会进行一系列的检查工作查重处理，如果重复则报错验证上传文件的目标目录是否存在，不存在报错检查权限 ... 3.返回检查信息到客户端第二部...

hdfs 下载文件（读数据）流程

wu_cai的专栏

09-04

829

需求：向hdfs下载文件text.txt 1、向namenode请求要下载的text.txt，namenode返回文件所在的datanode块位置信息 2、client挑选一台datanode（就近原则，然后再随机）服务器，请求建立socket流 3、datanode开始读取数据（从磁盘读取数据至流里面，以packet为单位来做校验） 4、客户端以packet为单位接收，先缓存在本地，然后写入目

HDFS文件上传和下载流程

m0_59651968的博客

10-20

1292

1、HDFS上传文件客户端请求上传文件：客户端（通常是Hadoop集群中的一个节点）发出上传文件的请求，改请求包括文件的本地路径、文件名以及在HDFS中的目标路径 NameNode验证请求：客户端请求首先到达集群中的NameNode，NameNode负载管理HDFS的文件系统命名空间和元数据。NameNode验证客户端的权限，，确保客户端有权向指定的目标路径上传文件；查看文件名是不是在当前目录下重复。。。自检分块和数据节点选择：当符合上传文件要求时，NameNode确定文件应该如何分块（默认情况下，H

大数据面试题整理——HDFS

最新发布

qq_68076599的博客

10-13

1456

您好，HDFS 即 Hadoop 分布式文件系统，它在大数据处理中起着至关重要的作用。HDFS 采用主从架构，主要由一个 NameNode 和多个 DataNode 组成。NameNode 负责管理整个文件系统的元数据，包括文件的目录结构、文件名以及文件块的位置信息等。而 DataNode 则实际存储数据块。HDFS 具有高容错性，通过数据冗余存储多个副本来确保数据的可靠性，非常适合处理大规模的数据，并且采用流式数据访问模式，即一次写入多次读取，这种模式特别适合批处理作业。

HDFS面试题

卡卡的博客

10-11

2869

HDFS常见面试题及解析

HDFS面试重点

weixin_41767872的博客

03-12

1503

总体而言，HDFS的架构是一个主从式的架构，其中NameNode作为中心管理元数据和客户端请求，而DataNode负责存储实际的数据块。通过将文件分成多个数据块并在集群中复制多个副本，可以提高数据的容错性。如果某个节点发生故障或者数据损坏，系统可以从其他副本所在的节点上获取数据，从而保证数据的可靠性和可用性。将文件分成固定大小的数据块可以使得数据在集群中分布均匀，并且能够实现并行处理。每个数据块都可以在集群中的不同节点上进行存储和处理，从而实现数据的高效读写和处理。

大数据面试突击系列HDFS原理篇

02-22

理解这些核心概念和工作流程对于在面试中解答关于HDFS的问题至关重要，也是在大数据领域工作时需要掌握的基础知识。掌握这些知识点，不仅可以帮助应对面试，还能在实际工作中更好地管理和优化HDFS集群。

2-HDFS常用命令及上传下载流程

m0_73450879的博客

03-28

2063

简述了NameNode的安全模式，SecondaryNameNode，DataNode，机架及副本感知策略，客户端上传下载文件的流程，及分布式中重要的RPC请求

HDFS文件上传下载过程(详图)

weixin_30788239的博客

01-31

200

转载于:https://www.cnblogs.com/wzlbigdata/p/8392078.html

HDFS的上传下载流程

mtx188的博客

04-17

415

HDFS的文件上传 HDFS的文件下载

hdfs上传下载文件流程

aiyin9511的博客

02-14

470

HDFS 写数据流程 1、 client 发起文件上传请求，通过 RPC 与 NameNode 建立通讯，NameNode检查目标文件是否已存在，父目录是否存在，返回是否可以上传； 2、 client 请求第一个 block 该传输到哪些 DataNode 服务器上； 3、 NameNode 根据配置文件中指定的备份数量及副本放置策略进行文件分配，返回可用的 DataNode 的地址，如：A，B...

HDFS上传、下载流程

Emeraki的博客

10-28

618

上传过程参考此图首先，有一个200M文件要上传，那么Client首先要读取这个文件，Distributed FileSystem就是整个集群的抽象封装。Client向NameNode发起一个上传请求，NameNode审查请求是否合法（比如相同路径下已经有了文件，有没有上传权限等），之后回复响应可否上传。此时文件就被切了块，分成了128M+72M，如下图。之后，往HDFS上传，要开一个输出流，FSDataOutoutStream， ...

客户端从HDFS中下载内容（读取）过程描述

WCD128的博客

03-30

1863

HDFS读数据流程： 1、客户端通过RPC请求namenode想要下载aaa.avi，namenode里面有个元数据，元数据里面记录以前存在这个系统里面的数据（数据、目录、副本、那些块 block1（dn1,dn3,dn4），block2（dn2,dn3,dn4），block3）。 2、namenode将元数据统一返回给客户端。 3、客

hdfs上传/下载文件过程详解

hellojoy的博客

01-11

1718

https://www.cnblogs.com/kyle-blog/p/14213575.html https://my.oschina.net/u/2969788/blog/4289020 hdfs上传文件过程详解 client端通知namenode要上传文件,namenode检查文件名是否已经存在,如果不存在通知可以上传,并且返回可以用于存储的datanode列表 client 切割文件为block块(默认大小128MB),向namenode请求上传block1,namenode返回可用的Dat

HDFS----【文件的上传即下载流程详解】

CoderBoom的博客

11-15

3743

HDFS上传文件流程文件上传流程图如下 : 首先 , HDFS选用的是每启动一个线程 , 就传递一个块 , 然后接收到第一个块后的机器复制给其他机器 . 首先我们知道namenode的职责 : 管理整个文件系统的元数据 ( 目录树文件和块对应信息 , dn信息) 响应整个客户端的所有请求 hdfs://node-1:9000 上传文件的流程首先hdfs客户端通过RPC调用向nn发...

java实现从HDFS上下载文件及文件夹的功能，以流形式输出，便于用户自定义保存任何路径下

刘大猫

06-10

3412

java实现下载hdfs文件及文件夹说明：java实现从HDFS上下载文件及文件夹的功能，以流形式输出，便于用户自定义保存任何路径下 1.下载xxx文件 “下载文件” 执行流程说明： 1.构建hdfs连接，初始化Configuration 2.获取文件输入流FSDataInputStream，调用downloadFile() 3.方法内部先设置header请求头，格式以文件名（convertFileName(fileName)）输出文件，然后输出流内部信息以流的形式输出 impor.

"大数据面试题及HDFS读写流程详解

这些步骤构成了HDFS文件读写过程的基本流程。此外，Hadoop的shuffle过程也是大数据处理中的关键环节。在Map端的shuffle过程中，Map端会处理输入数据并产生中间结果，这些中间结果会被写入本地磁盘而不是HDFS。每个...