HDFS架构概述(二)

因为在复习的时候发现有很多的东西时没有写到博客当中的,所以在这里就补充一下希望大家多提出一些意见,谢谢大家

HDFS的局限性


1)低延时数据访问,在用户交互性的应用中,应用需要在ms或者几个s的时间内得到回应。由于HDFS未高吞吐率做了设计,也因此牺牲了快速响应,对于低延时的用用,可以考虑使用HBase或者Cassandra

2)大量的小文件
标准的HDFS数据块的大小是64M一个,在2.x的版本当中默认是128M,存储小文件并不会浪费实际的存储空间,但是无疑会增加了在NameNode上的元数据,大量的小文件会影响整个集群的性能

3)多用户写入,修改文件。HDFS的文件只能有一个写入者,而且写操作只能在文件结尾已追加的方式进行。它不支持多个写入者,也不支持在文件写入后,对文件的如人意位置的修改
但是在大数据领域,分析的是已经存在的数据,这些数据一旦产生就不会修改,因此,HDFS的这些特性和设计局限也就容易理解了。HDFS为大数据领域的数据分析吗,提供了非常重要而且十分基础的文件存储功能


HDFS保证可靠性的措施
1)冗余备份
每个文件存储成一系列数据块(Block).为了容错,文件的所有数据块都会有副本(副本数量及复制因子,可配置)
2)副本存放
采用机架感知(Rak-aware)的策略来进行数据的可靠性、高效性和网络宽带的利用率
3)心跳检测
NameNode周期性地从集群吧中的每一个DataNode接受心跳包和块报告,收到心跳包说明该DataNode工作正常 4)安全模式
系统启动时,NameNode会进入一个安全模式。此时不会出现数据块的写操作
5)数据完整性检测
HDFS客户端软件实现了对HDFS问价那内容的校验和(Checksum)检查

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值