HDFS基础

一、HDFS介绍

HDFS是分布式文件系统。windows文件系统常见有fat32、ntfs,linux下 常见是ext3、ext4,还有很多其他文件系统。不同类别的文件系统存储数据的格式不一样。

二、HDFS1.0基础

1.HDFS1.0系统架构

  • 主(叫Master)和多个从(Slave或Worker)分别部署到不同机器上。主机器除了NameNode还有SecondaryNameNode(它并不是一个NameNode,仅仅是镜像文件,是数据的备份)。NameNode和DataNode其实是两个完全不同进程(注意是进程)。
  • HDFS1.0由3个组件构成 : NameNode(目前只能启动一个) 、 SecondaryNameNode 、 DataNode(每一台机器只能启动一个,但是多台机器会有多个)。

在这里插入图片描述

2.角色

  • HDFS角色一共三个:主、从、client(client是提交任务的客户端)。
  • Client的读操作:从DataNode上读,由NameNode告诉目标位置DataNode。
  • DataNode存储数据最小单元block(如下图的绿色小方块,默认64M,可以修改,block大小直接影响map并发个数)
  • NameNode存储元数据。

在这里插入图片描述

3.组件

NameNode、SecondaryNameNode 、 DataNode

I. NameNode

(1)NameNode:如下图

NameNode主要两个映射:文件名(客户端开发操作针对文件) -> block、block -> datanode(对应机器,一个机器只有一个datanode)。datanode的映射有block -> path。

在这里插入图片描述

(2)Namenode的隐患:
  • Namenode进程挂了就不提供服务。
  • HDFS1.0集群规模扩大问题:Namenode元数据存储在内存中,当集群规模特别大挂载了很多DataNode节点,DataNode节点有很多文件,文件背后有很多block,会发现这个数据非常庞大,那完全存在于内存中是吃不消的。一旦数据变大后,一方面是不能及时持久化,另外方面是不能永远膨胀下去,所以它直
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值