数据生命周期也能智能化管理?

本文探讨了面对数据爆发式增长,如何通过智能生命周期管理来降低存储成本。介绍了集群扩容、定期清理和生命周期管理等解决方式,重点阐述了生命周期管理的设计和案例,包括热数据和冷数据的划分,以及在数据湖和数仓之间的自动归档与回流。目前,该方法已应用于离线数据开发平台,实现了显著的成本节省,并展望了未来自动生命周期管理的发展方向。
摘要由CSDN通过智能技术生成

作者:卢俊兴 中原银行数据银行部

引言:随着时间的流逝,万物皆在变化,生老病死,时至则行。数据随着系统的运行,数据会不断的积累,但数据库的存储空间像地球容纳生命一样,有容量限制,若无节制的创造数据,终有一天数据也会“数满为患”。

数仓建设对数据爆发式增长的几种解决方式

  1. 集群扩容
    扩容集群是解决存储资源不足的最简单途径,通过扩容数据库集群的节点数量,来增加集群整体容量。
    优点:方案简单,易于实施,不依赖数据中台的成熟度
    缺点:扩容费用支出大,MPP架构数据库整体性能取决于所有节点的最低下限,若单台机器出现问题可能造成全局的雪崩,可扩展容量理论上存在上限。

  2. 定期清理
    定期梳理无用数据和大表,和数据提供方、使用方确认后删除数据,确保存储空间维持一定百分比。
    优点:不依赖数据中台的成熟度,方案有效可行
    缺点:人工成本大,操作风险高

  3. 生命周期管理
    结合数仓和数据湖的存储特性,实行冷热数据分离的生命周期管理方法,高频数据采用存储成本高,使用延迟低的存储介质存储,低频数据采用存储成本低,使用延迟高的存储介质存储,并提供一体化,用户透明的访问方案。
    优点:人力成本小,操作风险小,一次维护终身受益,可有长久效降低存储费

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值