数据仓库——存储优化管理方法

数据仓库——存储优化管理方法

存储优化管理的方式包括数据压缩、数据重分布、存储治理项优化、生命周期管理等方法。

  1. 数据压缩
    在分布式文件系统中,会将数据存储3份,这意味着存储1TB的逻辑数据,实际上会占用3TB的物理空间。使用盘古RAID file格式的文件,将存储比从1:3提高至1:1.5。这样做的缺点是数据块损坏时的修复时间比原来更长,读的性能也有损失。
  2. 数据重分布
    由于每个表的数据分布不同,插入顺序不同,导致压缩效果有很大的差异,通过修改表的数据重分布(distribute by, sort by字段)进行数据重分布,能够对表进行优化处理。
  3. 存储治理项优化:
    存储治理项优化是指在元数据的基础上,诊断、加工成多个存储治理优化项。目前已有的存储治理优化项有未管理表、空表、最近62天未访问表、数据无更新无任务表等。
  4. 生命周期管理策略
    根本目的:用最少的存储成本满足最大的业务需求,使数据价值最大化。
    a) 周期性删除策略:针对无效的历史数据进行定期清理。
    b) 彻底删除策略:无用表数据或者ETL过程产生的临时数据,以及不需要保留的数据,可以进行及时删除,包括删除元数据。
    c) 永久保留策略:重要且不可恢复的底层数据和应用数据需要永久保留。
    d) 极限存储策略:超高压缩重复镜像数据。
    e) 冷数据管理策略:永久保留策略的扩展。永久保留的数据需要迁移到冷数据中心进行永久保存。一般将重要且不可恢复的、占用存储空间大于100TB,且访问频次较低的数据进行冷备,例如3年以上的日志数据。
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值