第 14 章 存储和成本管理
一句话评论:数据每时每刻都在增长,存储能力跟不上数据的增长速度,这就需要不断优化存储方法、制定合理的存储策略,保障重要数据安全并控制存储成本在预算范围之内。
1 数据压缩
- archive压缩方法:将数据保存为RAID file的形式,即6份数据+3份校验块,节省约1/2的物理空间。缺点是恢复数据块的时间更长,冷备和日志数据适用。
2 数据重分布
- 主要通过修改distribute by 和 sort by 字段进行数据重分布,避免列热点,使得压缩效果更好。
3 存储治理项优化
- 优化项诸如,未管理表、空表、最近62天未访问表、数据无更新无任务表、数据无更新有任务表、开发库数据大于100GB且无访问表、长周期表等。
- 存储治理优化项主要流程:现状分析–对优化项进行问题诊断–向ETL人员推送–效果反馈。
4 生命周期管理
(1)生命周期管理策略
- 周期性删除策略:周期性删除N天之前的数据。
- 彻底删除策略:无用表或ETL过程中产生的临时数据。
- 永久保存策略:重要数据永久保存。
- 极限存储策略:例如一个分区超过5GB的镜像数据(如商品维表、用户维表)等适用。
- 冷数据管理策略:重要数据、占用空间大于100GB、访问频次较低进行冷备,例如4年以上的日志数据。
- 增量表merge全量表策略:例如交易增量数据。
(2)通用的生命周期管理矩阵
-
历史数据等级划分
-
表类型划分
-
生命周期管理矩阵
5 数据成本计量
- 数据成本=计算成本+存储成本
- 计算成本:将CPU的一个核心运行一天的消耗量定为CU,例如1元/CU
- 存储成本:例如1元/PB天
- 数据成本计量:考虑到数据的上下游依赖关系,例如表A<–表B<–表C,表C依赖于表B,以此类推。表C的数据成本不能只看其本身的计算成本和存储成本,因此实际中将数据成本计量定义为存储成本+计算成本+扫描成本。
6 数据使用计费
- 阿里巴巴内部对3个部分进行收费:计算付费、存储付费、扫描付费。
- 数据资产的成本管理:
- 数据成本计量:评估数据加工链路成本,从成本角度反映出是否存在加工复杂、链路过长、依赖不合理等问题,间接辅助模型优化、提高效率。
- 数据使用计费:规范下游用户的数据使用方法。
To be continued…