分布式文件系统HDFS基本原理

最笨的羊羊

于 2020-08-03 18:37:09 发布

阅读量623

点赞数

分类专栏：大数据文章标签：分布式文件系统 HDFS HDFS基本原理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhengzaifeidelushang/article/details/107761625

版权

大数据专栏收录该内容

527 篇文章 536 订阅 ¥49.90 ¥99.00

订阅专栏

HDFS是一个分布式文件系统，具有良好的扩展性、容错性以及易用的API。核心思想是将文件切分成等大的数据块，以多副本的形式存储到多个节点上。HDFS采用了经典的主从软件架构，其中主服务被称为NameNode，管理文件系统的元信息，而从服务被称为DataNode，存储实际的数据块，DataNode与NameNode维护了周期性的心跳，为了防止NameNode出现单点故障，HDFS允许一个集群中存在主备NameNode，并通过ZooKeeper完成Active NameNode的选举工作。HDFS提供了丰富的访问方式，用户可以通过HDFS shell，HDFS API，数据收集组件以及计算框架等存取HDFS上的文件。

一、分布式文件系统背景

在大数据场景中，存在两种解决方案：纵向扩展(scale-up)和横向扩展(scale-out)。
纵向扩展利用现有的存储系统，通过不断增加存储容量来满足数据增长的需求；
横向扩展则是以网络连接的节点为单位扩大存储容量(集群)。
由于纵向扩展存在价格昂贵、升级困难以及总存在物理瓶颈等问题，大数据领域通常会采用横向扩展方案。横向扩展的难点在于如何构建一个分布式文件系统，解决以下这些问题。

因故障导致丢失数据：横向扩展集群中采用的节点通常是普通的商用服务器，因机械故障、网络故障、人为失误、软件bug等原因导致服务器宕机或服务挂掉是常见的现象，这就要求分布式文件系统能够很好地处理各种故障。(即良好的容错性)。
文件通常较大：在大数据应用场景中，GB级别的文件是很常见的，且这样的文件数量极多，这与传统文件系统的使用场景是很不同的，这就要求分布式文件系统在IO操作以及块大小方面进行重新设

了解本专栏

最笨的羊羊

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
分布式文件系统HDFS基本原理

HDFS是一个分布式文件系统，具有良好的扩展性、容错性以及易用的API。核心思想是将文件切分成等大的数据块，以多副本的形式存储到多个节点上。HDFS采用了经典的主从软件架构，其中主服务被称为NameNode，管理文件系统的元信息，而从服务被称为DataNode，存储实际的数据块，DataNode与NameNode维护了周期性的心跳，为了防止NameNode出现单点故障，HDFS允许一个集群中存在主备NameNode，并通过ZooKeeper完成Active NameNode的选举工作。HDFS提供了丰富的访
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

最笨的羊羊 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。