大数据入门5:Hadoop分布式文件系统-HDFS

Hadoop分布式文件系统:大数据的家HDFS

1. HDFS= Hadoop Distributed File System

Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。(百度百科)

  1. 扩展存储大数据的能力
    在这里插入图片描述

  2. 硬盘出错的容错度
    在这里插入图片描述在这里插入图片描述

    ​ 通过这种形式保证了数据不会丢失(即,c节点出问题丢失,但是在节点A,D上c仍然存在,使得数据保持完整)。在HDFS中,为了保证这个问题,所有的block将会复制三次(可以调整改变的)

  3. 广泛支持的数据格式

    介于此,当我们使用HDFS读取、写入文件的时候,我们一定要明确文件的格式。同时我们也可以提供我们自己的数据格式 。GIS数据 可以读取为矢量(Vector)或栅格(Rasters)


2. 核心组成:

使用了一种主从关系来控制使用(a master slave relationship)

  1. NameNode for metadata(元数据的Namenode): 通常情况下,每个集群有一个。在某种意义上,NameNode是HDFS集群的管理员或协调器。创建文件时,NameNode记录目录层次结构中的名称、位置和其他元数据。NameNode还决定哪些数据节点存储文件的内容并记住这个映射。
  2. DataNode for block storage(块存储的DataNode):通常情况下,一个机器有一个。DataNode在集群中的每个节点上运行,并负责存储文件块。DataNode监听来自NameNode的命令(Comments),用于创建、删除和复制块。复制提供了两个关键功能。容错和数据局部性。(fault Tolerance、Data locality)

3. 总结

  • HDFS通过在多个节点上对文件进行分区来提供可扩展的大数据存储。这有助于将大数据分析扩展到大数据量。

  • 应用程序可以防止硬件故障,并在我们将分析复杂性转移到数据时提供数据局部性。

在这里插入图片描述

*参照资料:hadoop官方文档:HDFS详解

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值