HDFS读取数据的流程图

最新推荐文章于 2024-08-21 08:24:46 发布

花生了什么树~.

最新推荐文章于 2024-08-21 08:24:46 发布

阅读量238

点赞数 8

分类专栏： hadoop 文章标签：大数据 hadoop

本文链接：https://blog.csdn.net/weixin_58468790/article/details/141003070

版权

hadoop 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1.客户端向namenode发送读取数据的请求。

2.namenode接受请求，首先判断当前用户是否具备读取数据的权限，如果没有直接报错；如果有，接着判断在指定的路径下是否有这个文件，如果没有，直接报错；如果有，根据机架感知原理，网络拓扑关系，副本机制，返回部分或者全部的block块所在的datanode的地址。

3.当接收部分或者全部的block列表后，然后进行并行连接datanode节点后，开始读取数据。

4.当从这些地址中将block块读取完成后，如果之前返回的是部分block，此时再次请求namenode,将剩余部分或者全部的block的datanode的列表返回来，接着再运行第三步，开启并行读取数据操作，直至所有的block全部读取下来。

5.按照block进行排序，然后一个一个的拼接在一起，合并成一个最终的文件。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

花生了什么树~.

关注关注

8
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
HDFS读取数据的流程图

HDFS读取数据的流程图
复制链接

扫一扫

专栏目录

HDFS读数据流程

zhangleilei_的博客

12-05

957

（1）客户端给NameNode发起文件下载请求（2）NameNode进行两项检查（1.检查用户是否有权限下载2.检查文件是否存在）

HDFS构架设计和读写流程.docx

07-03

### HDFS架构设计和读写流程详解 #### HDFS概览 HDFS（Hadoop Distributed File ...综上所述，HDFS通过其独特的架构设计和高效的读写流程，成功地解决了大数据存储的关键问题，为海量数据的高效处理提供了坚实的基础。

参与评论您还未登录，请先登录后发表或查看评论

易理解版hdfs文件读取流程图

weixin_48644768的博客

10-07

216

hdfs文件读取超详细流程图。

HDFS读取数据流程详解

amingo_ss的博客

04-30

4898

hdfs读取数据流程详解 hdfs数据读取流程的流程和写入流程是相对应的。读取的目标存储在datanode block中，那么要搞清楚hdfs读取的流程，理解hdfs写入流程是前提。另外理解HDFS的数据读取流程除了理解hdfs交互过程外，还需要知道下面两个知识点：（1）机架感知-副本存储机制（2）网络拓扑-节点距离计算本文包含的主要内容： 1.hdfs读取数据流程 2.hdfs读取数据过...

非常详细HDFS读写流程+完美视觉的HDFS读写流程图

weixin_47201365的博客

11-24

2401

DataStreamer 将数据包流式传输到管线中第 1 个DataNode（dn1），该 DataNode（dn1）存储数据包并将它发送到管线中的第 2 个 DataNode（dn2）。同样地，第 2 个 DataNode（dn2）存储该数据包并且发送给管线中的第3个DataNode（dn3）DFSOutputStream 也维护着一个内部数据包队列来等待 DataNode 的收到确认回执，称为“确认队列”(ack queue)。NameNode检查目标文件是否已存在，父目录是否存在。

HDFS读写数据流程

cn.Dixon

03-12

246

HDFS数据读写流程图

hadoop集群：HDFS读写流程图与HDFS元数据管理机制

weixin_41300542的博客

03-17

2460

hadoop集群：HDFS读写流程图 1，HDFS读流程客户端通过Distributed FileSystem向NameNode请求下载文件。 NameNode通过查询元数据，找到文件块所在的DataNode地址，并将该文件元数据返回给客户端。客户端根据从namenode获得的元数据，挑选一台DataNode（就近原则，然后随机）服务器，依次请求读取块数据。 DataNode开始依次将块数据传输给客户端（从磁盘里面读取数据输入流，以Packet为单位来做校验）。客户端以Packet为单位接收，先在

hdfs读流程图_HDFS读写流程

weixin_42511053的博客

02-15

362

1、客户端通过调用 DistributedFileSystem 的create方法，创建一个新的文件2、通过 RPC(远程过程调用)调用 NameNode，去创建一个没有blocks关联的新文件。创建前，NameNode 会做各种校验，比如文件是否存在，客户端有无权限去创建等。如果校验通过，NameNode 就会记录下新文件，否则就会抛出IO异常3、返回FSDataOutputStream，执行w...

HDFS读写数据流程详解

qq_41544550的博客

11-17

2348

HDFS写数据流程步骤： 1）客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。 2）NameNode返回是否可以上传。 3）客户端请求第一个 block上传到哪几个datanode服务器上。 4）NameNode返回3个datanode节点，分别为dn1、dn2、dn3。 5）客户端...

HDFS 读写数据流程

程序猿进阶

06-11

2176

客户端开始往 dn1上传第一个Block（先从磁盘读取数据放到一个本地内存缓存），以 Packet为单位，dn1收到一个 Packet就会传给 dn2，dn2传给 dn3；利用这种标记，这里给出四种距离描述，如上图所示：大家算一算每两个节点之间的距离：每一个线表示1，例如 11 到 4距离为3。对于常见情况，当复制因子为3时，HDFS的放置策略是将一个副本放在本地机架中的一个节点上，另一个放在本地机架中的另一个节点上，最后一个放在不同机架中的另一个节点上。【3】第三个副本位于不同机架，随机节点。

HADOOP大数据平台系统思路流程图

06-17

HADOOP大数据平台系统思路流程图 基于HADOOP大数据平台系统思路流程图，我们可以总结出以下知识点： 1. HADOOP大数据平台系统架构 HADOOP大数据平台系统架构主要包括HDFS（Hadoop Distributed File System）、...

大数据HDFS文档

08-23

- **定义**: HDFS（Hadoop Distributed File System）是一种分布式文件系统，旨在提供高效、可靠的数据存储解决方案，尤其适用于处理大规模数据集。 - **背景**: 基于Google发表的GFS（Google File System）论文，...

大数据采集技术-HDFS简介.pptx

12-23

HDFS的工作流程主要包括以下几个步骤： 1. **数据块划分**：根据文件大小将文件划分为固定大小的数据块。 2. **数据存储**：将数据块复制到多个节点上，通常为3个副本。 3. **数据访问**：客户端通过NameNode获取...

数据湖+数据集成技术教程

07-11

- **数据存储**: 常用低成本的存储系统，比如 Amazon S3、Azure Data Lake Storage 或 Hadoop HDFS。 - **数据处理**: 使用大数据处理框架（如 Apache Spark 和 Apache Flink）对数据进行清洗、转换和分析。 - **...

kafka 消费组分区分配策略

qq_18218071的博客

08-19

466

kafka 消费组分区策略

唯大数据（大模型）论阻碍智能领域的创新吗？

最新发布

人机与认知实验室

08-21

318

唯大数据，即将大数据视为智能领域创新的唯一或主要驱动力，可能会带来一些挑战和限制。尽管大数据在智能系统中提供了丰富的信息和洞察，但过度依赖大数据也可能导致以下几个问题：1、数据质量和偏差：大数据往往包含大量噪声和不准确的数据，这可能影响模型的准确性和可靠性。数据的质量远比数量更为关键，糟糕的数据质量可能导致误导性的结果。大数据中的偏差和不平衡可能导致模型的偏见，如训练数据中存在的社会或文化偏见可能...

Kafka运行机制（二）：消息确认，消息日志的存储和回收，生产者消息分区

dxh9231028的博客

08-19

789

生产者端，客户端在通过生产者生产消息时，需要知道消息是否发送成功，防止消息丢失或进行其他操作。消费者端，消费者也需要确认自己在消费数据后，提交偏移量是否成功，防止重复消费。

政务大数据解决方案（八）

绿茵场的激情

08-17

314

政务大数据解决方案通过建立全面的数据集成与分析平台，整合各政府部门的多源数据，利用高级数据处理技术和人工智能算法进行深度分析与智能预测，从而为政府提供实时、精准的决策支持。该方案包括数据采集、清洗、存储、分析和可视化等环节，确保数据的完整性和安全性，打破信息孤岛，促进跨部门数据共享与协作，提升政策制定和执行的科学性与效率，同时通过智能化的预警和监测系统，增强对社会动态的敏感度与应对能力，推动政务服务的数字化与智能化进程，实现更高水平的公共服务质量和治理现代化，提升公众的满意度和社会整体运行效率。

hadoop处理数据流程图

06-08

下面是Hadoop处理数据的基本流程图： 1. 首先，将要处理的数据分成小块，这些小块称为数据块或数据片段。 2. 接着，将这些数据块分别存储在Hadoop分布式文件系统（HDFS）的不同节点上。 3. 然后，MapReduce程序将被编写和提交给Hadoop集群，以便处理这些数据。MapReduce程序由两个主要阶段组成：Map阶段和Reduce阶段。 4. 在Map阶段，每个节点会读取它们所存储的数据块，并将其转换为键值对形式。 5. 接着，Map函数将会被应用于每个键值对，以生成新的键值对，这些新的键值对将被传递到Reduce阶段。 6. 在Reduce阶段，所有具有相同键的键值对将被分组在一起，然后Reduce函数将会被应用于每个组，以生成最终输出结果。 7. 最后，输出结果将被写入HDFS，以便进一步处理或分析。这就是Hadoop处理数据的基本流程。