Hadoop之谈谈HDFS

HDFS是一个分布式文件系统,它类似Linux下 Ext2,3,4一样的文件系统。只是它是分布式文件系统,能够容忍故障且不丢失数据。

HDFS是一个流式数据访问模式来存储大文件的,什么是流式?流式一般对应下载,就是可以传输过来一点数据,处理一点数据而不用等全部数据下载完。

HDFS是一个设计为高延迟,高吞吐的文件系统。

HDFS是namenode,datanode的结构。

HDFS的数据块单位是128M(低版本64MB),它的计算规则如下,假如块大小为 X,硬盘的寻址时间为10ms,硬盘的传输速度为100MB/s。为了让寻址时间占到传输时间的1%,则

X/(100MB/s)  = 10ms/ (1%)

则推算出 X为100MB。

HDFS写文件流程,Client通知NameNode,NameNode给Clent分配一个DataNode序列,Client和最近DataNode建立链接,发送请求依次下传。最后一个DataNode,发送回包,依次回传。最后,Client释放链接。

HDFS读文件流程,Clinet联系Namdode,NameNode返回数据块信息及数据服务器的位置信息。尝试连接数据块的一个数据服务器,数据块被一个一个发回客户端,等这个块读完了,尝试连接另一个数据块的一个数据服务器,如此反复。

HDFS提供了很多压缩算法,目的为减少文件存储空间加快传输效率。



以上是个人现阶段整理及理解~~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值