HDFS元数据实现原理及fsimage在数据治理中的应用

开头:待思考几个问题

1)目前集群总文件数量 2.6亿,平均文件大小不到 30M,如何快速定位出小文件较多目录进行处理?
目前集群总存储量 6.3PB,日增 100TB
2)如何快速定位哪些目录每天增长过快?
3)如何定位出几个月未使用过的冷数据?然后对数据进行冷热分离
4)主备两个 NameNode 的作用分别是?其高可用是怎么做的?

HDFS 架构演进,从 Hadoop 1.x 到 Hadoop 2.x

HDFS 1.x 架构:NameNode, Secondary NameNode,DataNode
在这里插入图片描述
NameNode 管理着文件系统元数据,在本地磁盘中以 fsimage 和 edits log 存在。启动过程:将两者合并后加载进内存,DataNode 上报文件-block-DataNode 对应关系也保存在内存。当有读请求时候快速返回文件 block 位置。当有写请求时候,先写到本地 edits log 再写到内存中。
Secondary NameNode 负责定期进行 ckpt:从 NameNode 下载 fsimage 和 edits log,在本地进行合并后生成新的 fsimage(当达到某个时间阈值或对 HDFS 文件的读写请求事务达到一定数量时候)。将合并后的最新 fsimage 上传到 NameNode。

问题:NameNode 单点故障风险

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值