HDFS的读取和写入原理

HDFS的读取和写入原理

数据读取请求将由 HDFSNameNode和DataNode来服务。让我们把读取器叫 “客户”。

1.HDFS读操作

1、客户端启动通过调用文件系统对象的 open() 方法读取请求;它是DistributedFileSystem 类型的对象。

2、此对象使用 RPC 连接到 namenode 并获取的元数据信息,如该文件的块的位置。 请注意,这些地址是文件的前几个块。

3、响应该元数据请求,具有该块副本的 DataNodes 地址被返回。

4、一旦接收到 DataNodes的地址,FSDataInputStream类型的一个对象被返回到客户端。 FSDataInputStream包含DFSInputStream这需要处理交互DataNode和NameNode。在上图所示的步骤4,客户端调用 read() 方法,这将导致DFSInputStream 建立与第一个 DataNode 文件的第一个块连接。

5、以数据流的形式读取数据,其中客户端多次调用 “read() ” 方法。 read() 操作这个过程一直持续,直到它到达块结束位置。

6、一旦到块的结尾,DFSInputStream 关闭连接,移动定位到下一个DataNode 的下一个块

7、一旦客户端已读取完成后,它会调用 close()方法。

 

​​​​​2.HDFS写操作

如何通过的文件将数据写入到 HDFS。

1、客户端通过调用 DistributedFileSystem对象的create() 方法创建一个新的文件,并开始写操作 - 在上面的图中的步骤1

2、DistributedFileSystem对象使用 RPC 调用连接到 NameNode,并启动新的文件创建。但是,此文件创建操作不与文件任何块相关联。NameNode 的责任是验证文件(其正被创建的)不存在,并且客户端具有正确权限来创建新文件。如果文件已经存在,或者客户端不具有足够的权限来创建一个新的文件,则抛出 IOException 到客户端。否则操作成功,并且该文件新的记录是由 NameNode 创建

3、一旦 NameNode 创建一条新的记录,返回FSDataOutputStream 类型的一个对象到客户端。客户端使用它来写入数据到 HDFS。数据写入方法被调用(图中的步骤3)。

4、FSDataOutputStream包含DFSOutputStream对象,它使用 DataNodes 和 NameNode 通信后查找。当客户机继续写入数据,DFSOutputStream 继续创建这个数据包。这些数据包连接排队到一个队列被称为 DataQueue

5、还有一个名为 DataStreamer 组件,用于消耗DataQueue。DataStreamer 也要求 NameNode 分配新的块,拣选 DataNodes 用于复制

6、 现在,复制过程始于使用 DataNodes 创建一个管道。 在我们的例子中,选择了复制水平3,因此有3 个 DataNodes 管道

7、所述 DataStreamer 注入包分成到第一个 DataNode 的管道中。

8、在每个 DataNode 的管道中存储数据包接收并同样转发在第二个 DataNode 的管道中。

9、 另一个队列,“Ack Queue”是由 DFSOutputStream 保持存储,它们是 DataNodes 等待确认的数据包。

10、 一旦确认在队列中的分组从所有 DataNodes 已接收在管道,它从 'Ack Queue' 删除。在任何 DataNode 发生故障时,从队列中的包重新用于操作。

11、在客户端的数据写入完成后,它会调用close()方法(第9步图中),调用close()结果进入到清理缓存剩余数据包到管道之后等待确认。

12、一旦收到最终确认,NameNode 连接告诉它该文件的写操作完成。

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
要使用Flume读取RabbitMQ并将数据写入HDFS,可以按照以下步骤进行: 1. 安装Flume和RabbitMQ。 2. 配置RabbitMQ,创建一个Exchange和一个Queue,将Exchange和Queue绑定在一起。 3. 在Flume的配置文件中,配置RabbitMQ Source和HDFS Sink。 示例配置文件如下: ``` agent.sources = rabbitmqSource agent.channels = memoryChannel agent.sinks = hdfsSink # 配置RabbitMQ Source agent.sources.rabbitmqSource.type = com.cloudera.flume.source.rabbitmq.RabbitMQSource agent.sources.rabbitmqSource.uri = amqp://<username>:<password>@<rabbitmq-host>:<rabbitmq-port>/ agent.sources.rabbitmqSource.exchange = <exchange-name> agent.sources.rabbitmqSource.queue = <queue-name> agent.sources.rabbitmqSource.batchSize = 100 # 配置Memory Channel agent.channels.memoryChannel.type = memory agent.channels.memoryChannel.capacity = 1000 # 配置HDFS Sink agent.sinks.hdfsSink.type = hdfs agent.sinks.hdfsSink.hdfs.path = hdfs://<namenode>:<port>/<path> agent.sinks.hdfsSink.hdfs.fileType = DataStream agent.sinks.hdfsSink.hdfs.writeFormat = Text agent.sinks.hdfsSink.hdfs.rollInterval = 300 agent.sinks.hdfsSink.hdfs.rollSize = 0 agent.sinks.hdfsSink.hdfs.rollCount = 100 agent.sinks.hdfsSink.channel = memoryChannel ``` 其中,<username>、<password>、<rabbitmq-host>、<rabbitmq-port>、<exchange-name>、<queue-name>、<namenode>、<port>和<path>需要替换为实际的值。 4. 启动Flume Agent,使用以下命令启动: ``` $FLUME_HOME/bin/flume-ng agent --conf $FLUME_HOME/conf --conf-file $FLUME_HOME/conf/flume.conf --name agent -Dflume.root.logger=INFO,console ``` 其中,$FLUME_HOME是Flume的安装目录。 5. Flume将开始从RabbitMQ读取数据并将其写入HDFS。 注意:在实际生产环境中,需要根据实际需求对Flume的配置进行优化和调整。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值