基于Hadoop构建对象存储系统（二）

最新推荐文章于 2024-08-23 01:18:04 发布

yeminping

最新推荐文章于 2024-08-23 01:18:04 发布

阅读量144

点赞数

分类专栏：分布式存储文章标签： Hadoop HBase Mapreduce 数据结构配置管理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yeminping/article/details/83521512

版权

分布式存储专栏收录该内容

4 篇文章 0 订阅

订阅专栏

归档文件的再归档

1. 扫描归档文件列表，统计占用磁盘空间低于阈值的归档文件；

2. 根据归档文件大小配置参数，将统计所得归档文件分组；

3. 统计各分组归档文件涉及到的对象；

4. 将每个分组中的归档文件合并到一个归档文件；将归档文件中的有效对象数据合并到一个新的归档文件中；

5. 更新相关对象元数据信息表中的数据位置描述项；

6. 删除旧的归档文件；

图 -8 归档文件的再归档

总结语

基于 Hadoop 实现类似 Amazon S3 的对象存储系统，有一定的先天优势，例如 Hadoop 的 HDFS 作为数据存储的容器，解决了数据冗余备份的问题； Hadoop 的半结构化的存储系统 HBase 可以支撑 MetaData 的存储，同时解决了 MetaData 存储层的可靠性和可扩展性等问题。 HDFS 天生不能适合存储大量小文件的缺陷，可以使用 MapReduce 处理架构在后台提供对象归档管理功能（ Hadoop 已经有了 HAV 的功能，只是没有平台化），使得 HDFS 仍然存储自己喜欢的“大文件”。这种基于 Hadoop 实现的对象存储系统，并不能保证在现阶段达到和 Amazon S3 一样的服务效率，但随着 Hadoop 系统的不断完善（例如 HDFS 访问效率的提高， Append 功能的支持等），相信也能有不俗的表现。

来自：http://blog.csdn.net/Cloudeep/archive/2009/08/05/4412958.aspx

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
基于Hadoop构建对象存储系统（二）

归档文件的再归档1. 扫描归档文件列表，统计占用磁盘空间低于阈值的归档文件；2. 根据归档文件大小配置参数，将统计所得归档文件分组；3. 统计各分组归档文件涉及到的对象；4. 将每个分组中的归档文件合并到一个归档文...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。