hadoop分布式文件系统(hdfs)理论难点

本文介绍了Hadoop分布式文件系统(HDFS)的工作原理,包括客户端如何拆分并发送数据到DataNode,DataNode如何存储数据并通过流水线方式传递,以及NameNode如何管理和协调这些操作。此外,还探讨了HDFS流式数据访问的特点以及为何不适合存储小文件。
摘要由CSDN通过智能技术生成

HAPDOOP DISTRIBUTED FILE SYSTEM(hadoop分布式文件系统)

client:读写数据的发起者,将文件拆分。

datanode:数据存储,数量巨大。

namenode:唯一的领导者,协调和把控所有的的请求。

hdfs存储数据:客户端负责把数据拆分,发送给datanode,并把存储块数告诉datanode;datanode以流水线的方式存储数据(第一个datanode收到数据以后把数据传给第二个datanode,第二个datanode重复第一个datanode的工作);datanode存储完数据以后把信息告诉给namenode,namenode再把存储地址告知客户端。

什么是hdfs流式的数据访问:一次写入,多次读取。

hdfs并不适合小文件存储:一个datanode的容量是固定的,如果只用它来存储小文件,那么对datanode的占用就会很大。这有点跟linux以inode方式存储文件相似,如果inode用来存储小文件,inode消耗过大(准确说inode用完),就会导致内存没用完,但是已经无发存储数据。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值