数据生命周期也能智能化管理?
作者:卢俊兴 中原银行数据银行部
引言:随着时间的流逝,万物皆在变化,生老病死,时至则行。数据随着系统的运行,数据会不断的积累,但数据库的存储空间像地球容纳生命一样,有容量限制,若无节制的创造数据,终有一天数据也会“数满为患”。
数仓建设对数据爆发式增长的几种解决方式
-
集群扩容
扩容集群是解决存储资源不足的最简单途径,通过扩容数据库集群的节点数量,来增加集群整体容量。
优点:方案简单,易于实施,不依赖数据中台的成熟度
缺点:扩容费用支出大,MPP架构数据库整体性能取决于所有节点的最低下限,若单台机器出现问题可能造成全局的雪崩,可扩展容量理论上存在上限。 -
定期清理
定期梳理无用数据和大表,和数据提供方、使用方确认后删除数据,确保存储空间维持一定百分比。
优点:不依赖数据中台的成熟度,方案有效可行
缺点:人工成本大,操作风险高 -
生命周期管理
结合数仓和数据湖的存储特性,实行冷热数据分离的生命周期管理方法,高频数据采用存储成本高,使用延迟低的存储介质存储,低频数据采用存储成本低,使用延迟高的存储介质存储,并提供一体化,用户透明的访问方案。
优点:人力成本小,操作风险小,一次维护终身受益,可有长久效降低存储费