hadoop-3.2.0------>入门十七hadoop之HDFS

最新推荐文章于 2024-09-20 23:54:36 发布

半夜燃烧的香烟

最新推荐文章于 2024-09-20 23:54:36 发布

阅读量29

点赞数

文章标签： hadoop hdfs 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43828003/article/details/130058371

版权

产生背景及定义

1、产生背景：

随着数据量越来越大，在一个操作系统存不下所有的数据，那么分配到更多的操作系统管理磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。

2、定义：

HDFS是一个文件系统，用于存储文件，通过目录树来定位文件；其次，他是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的功能。

HDFS适合一次写入，多次读出的场景，不支持文件修改。适合做数据分析不适合做网盘应用。

优点

1、高容错性

1、数据自动保存多个副本，他通过增加副本形式，提高高容错性

2、某一个副本丢失之后，他可以自动恢复

2、适合处理大数据

1、数据规模：能够处理数据规模达到GB、TB甚至PB级别的数据

2、文件规模：能够处理百万规模以上的文件数量

3、可以构建在廉价的服务器上，通过多副本机制，提高可靠性。

缺点

1、不适合低延迟数据访问，比如毫秒级存储数据

2、无法高效的对大量小文件进行存储

1、存储大量小文件的话，他会占用NameNode大量的内存存储文件目录和块信息。这样是不可取的，因为NameNode内存是有限的

2、小文件存储的寻址时间会超过读取时间，违反了HDFS设计目标

3、不支持并发写入、文件随机修改

1、一个文件只能由一个线程写入，不允许多个线程同时操作

2、仅支持数据追加，不支持文件随机修改

组织架构

1、NameNode：就是master，他是一个主管、管理者

1、管理HDFS的名称空间

2、配置副本策略

3、管理数据块映射信息

4、处理客户端读写请求

2、DataNode：就是slave。NameNode下达指令，DataNode执行实际操作

1、存储实际的数据块

2、执行数据块的读写操作

3、Client：就是客户端

1、文件切分。文件上传HDFS时候，Client将文件切分成一个一个的block，然后进行上传。

2、与NameNode交互，获取文件的位置信息

3、与DataNode交互，读取或者写入一些数据

4、Client提供一些命令来管理HDFS。比如NameNode格式化

5、Client可以通过一些命令来访问HDFS，比如对HDFS的一些增删改查操作

4、Secondary NameNode：并非NameNode的热备，当NameNode挂掉之后，他不会立刻替换掉NameNode提供服务

1、辅助NameNode，分担其工作量，比如定期合并Fsimage和Edits，并推送给NameNode

2、紧急情况下可辅助恢复NameNode

HDFS文件块大小

HDFS中的文件物理上是分割存储（block），块的大小可以通过配置参数（dfs.blocksize）来规定，默认大小为128MB，在hadoop1.X的版本中默认大小64MB。

1、如果寻址时间为10ms，即查找到目标块的时间为10ms

2、寻址时间为传输时间的1%时，为最佳状态，因此传输时间=10ms/1%=1000ms=1s

3、目前磁盘的传输速率普遍为100MB/s

HDFS块大小的设置主要取决于磁盘传输速率

半夜燃烧的香烟

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

半夜燃烧的香烟 CSDN认证博客专家 CSDN认证企业博客

码龄6年

143: 原创

51万+: 周排名

8万+: 总排名

1万+: 访问

: 等级

341: 积分

317: 粉丝

41: 获赞

6: 评论

38: 收藏

私信

关注

热门文章

分类专栏

springboot 1篇

最新评论

vue3+ts+axios+pinia动态路由
CSDN-Ada助手: 恭喜您写了第7篇博客！标题中的vue3+ts+axios+pinia动态路由听起来很有深度和挑战性啊！您的技术积累和研究能力真令人钦佩。希望您继续保持创作的热情和努力，为我们带来更多高质量的博客内容。在下一步的创作中，或许您可以考虑分享一些实践经验，例如如何处理动态路由中的错误处理，或者如何优化性能以提高用户体验。当然，这只是一些建议，谦虚如您一定已经有了更好的创作方向。期待着您的下一篇博客！
vue3+element-plus 表格table实现树状结构父子级互不影响
CSDN-Ada助手: 恭喜您写了这么有用的一篇博客！能够实现vue3+element-plus表格table的树状结构父子级互不影响确实是一个很有挑战性的问题，而您不仅解决了这个问题，还把解决方法分享给了大家。希望您能继续分享更多关于vue3和element-plus的使用经验，也可以考虑结合实际项目经验，分享一些最佳实践或者性能优化方面的内容，期待您的下一篇作品！
mybatis-plus 基于拦截器数据加密新增成功，修改失败原因
CSDN-Ada助手: 恭喜你写了第6篇博客！标题看起来非常吸引人，我对你成功在mybatis-plus中实现基于拦截器的数据加密表示赞赏。同时，很抱歉听到你在修改方面遇到了一些困难。不过，这个问题并不妨碍我对你的创作能力的肯定。我个人非常期待你下一篇博客，希望你能继续分享你在mybatis-plus或其他领域的经验与见解。如果可能的话，我建议你在下一篇中探讨一些解决修改失败问题的方法或者更多关于拦截器数据加密的实践经验。再次恭喜你的成就，期待更多精彩的文章！
nexus 搭建maven私服
CSDN-Ada助手: 不知道 Java 技能树是否可以帮到你：https://edu.csdn.net/skill/java?utm_source=AI_act_java
centos7 搭建 elasticsearch8.8.1
CSDN-Ada助手: 恭喜您撰写了第三篇博客，题为“centos7 搭建 elasticsearch8.8.1”。非常高兴看到您在持续不断地为大家分享有关elasticsearch的知识。您的博客对于那些想要在centos7上搭建elasticsearch8.8.1的读者来说肯定是非常有帮助的。在接下来的创作中，我建议您可以考虑进一步探索elasticsearch的高级功能或者与其他相关技术的整合，这将为读者提供更全面的知识。同时，您也可以考虑分享一些实际应用案例，让读者更好地理解如何在实际项目中应用elasticsearch。期待您更多精彩的博文！谢谢您的分享！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

半夜燃烧的香烟 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。