【读书笔记】阿里巴巴大数据实践:存储和成本管理(第14章)

第 14 章 存储和成本管理


一句话评论:数据每时每刻都在增长,存储能力跟不上数据的增长速度,这就需要不断优化存储方法、制定合理的存储策略,保障重要数据安全并控制存储成本在预算范围之内。


1 数据压缩

  • archive压缩方法:将数据保存为RAID file的形式,即6份数据+3份校验块,节省约1/2的物理空间。缺点是恢复数据块的时间更长,冷备和日志数据适用。

2 数据重分布

  • 主要通过修改distribute by 和 sort by 字段进行数据重分布,避免列热点,使得压缩效果更好。

3 存储治理项优化

  • 优化项诸如,未管理表、空表、最近62天未访问表、数据无更新无任务表、数据无更新有任务表、开发库数据大于100GB且无访问表、长周期表等。
  • 存储治理优化项主要流程:现状分析–对优化项进行问题诊断–向ETL人员推送–效果反馈

4 生命周期管理

(1)生命周期管理策略

  • 周期性删除策略:周期性删除N天之前的数据。
  • 彻底删除策略:无用表或ETL过程中产生的临时数据。
  • 永久保存策略:重要数据永久保存。
  • 极限存储策略:例如一个分区超过5GB的镜像数据(如商品维表、用户维表)等适用。
  • 冷数据管理策略:重要数据、占用空间大于100GB、访问频次较低进行冷备,例如4年以上的日志数据。
  • 增量表merge全量表策略:例如交易增量数据。

(2)通用的生命周期管理矩阵

  • 历史数据等级划分
    在这里插入图片描述

  • 表类型划分
    在这里插入图片描述

  • 生命周期管理矩阵
    在这里插入图片描述
    在这里插入图片描述

5 数据成本计量

  • 数据成本=计算成本+存储成本
    • 计算成本:将CPU的一个核心运行一天的消耗量定为CU,例如1元/CU
    • 存储成本:例如1元/PB天
  • 数据成本计量:考虑到数据的上下游依赖关系,例如表A<–表B<–表C,表C依赖于表B,以此类推。表C的数据成本不能只看其本身的计算成本和存储成本,因此实际中将数据成本计量定义为存储成本+计算成本+扫描成本。

6 数据使用计费

  • 阿里巴巴内部对3个部分进行收费:计算付费、存储付费、扫描付费。
  • 数据资产的成本管理:
    • 数据成本计量:评估数据加工链路成本,从成本角度反映出是否存在加工复杂、链路过长、依赖不合理等问题,间接辅助模型优化、提高效率。
    • 数据使用计费:规范下游用户的数据使用方法。

To be continued…

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值