大数据入门5：Hadoop分布式文件系统-HDFS

最新推荐文章于 2022-06-04 20:58:01 发布

小叶真可爱

最新推荐文章于 2022-06-04 20:58:01 发布

阅读量277

点赞数

分类专栏：大数据入门文章标签： HDFS Hadoop 分布式文件系统

本文链接：https://blog.csdn.net/weixin_43606502/article/details/103407497

版权

大数据入门专栏收录该内容

10 篇文章 8 订阅

订阅专栏

文章目录

Hadoop分布式文件系统：大数据的家HDFS

Hadoop分布式文件系统：大数据的家HDFS

1. HDFS= Hadoop Distributed File System

Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统（Distributed File System）。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。(百度百科）

扩展存储大数据的能力
硬盘出错的容错度：

通过这种形式保证了数据不会丢失（即，c节点出问题丢失，但是在节点A,D上c仍然存在，使得数据保持完整）。在HDFS中，为了保证这个问题，所有的block将会复制三次（可以调整改变的）
广泛支持的数据格式

介于此，当我们使用HDFS读取、写入文件的时候，我们一定要明确文件的格式。同时我们也可以提供我们自己的数据格式。GIS数据 可以读取为矢量（Vector）或栅格（Rasters）

2. 核心组成：

使用了一种主从关系来控制使用（a master slave relationship）

NameNode for metadata（元数据的Namenode）：通常情况下，每个集群有一个。在某种意义上，NameNode是HDFS集群的管理员或协调器。创建文件时，NameNode记录目录层次结构中的名称、位置和其他元数据。NameNode还决定哪些数据节点存储文件的内容并记住这个映射。
DataNode for block storage（块存储的DataNode）：通常情况下，一个机器有一个。DataNode在集群中的每个节点上运行，并负责存储文件块。DataNode监听来自NameNode的命令（Comments），用于创建、删除和复制块。复制提供了两个关键功能。容错和数据局部性。（fault Tolerance、Data locality）

3. 总结

HDFS通过在多个节点上对文件进行分区来提供可扩展的大数据存储。这有助于将大数据分析扩展到大数据量。
应用程序可以防止硬件故障，并在我们将分析复杂性转移到数据时提供数据局部性。

在这里插入图片描述

*参照资料：hadoop官方文档：HDFS详解

小叶真可爱

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
大数据入门5：Hadoop分布式文件系统-HDFS

文章目录Hadoop分布式文件系统：大数据的家HDFS1.HDFS= Hadoop Distributed File System2. 核心组成：3. 总结Hadoop分布式文件系统：大数据的家HDFS1.HDFS= Hadoop Distributed File System扩展存储大数据的能力硬盘出错的容错度：通过这种形式保证了数据不会丢失（即，c节点出问题丢失，但...
复制链接

扫一扫