一、生命周期管理
(LIFECYCLE),指表(分区)数据从最后一次更新时间算起,在经过指定的时间后没有变动,则此表(分区)将被ODPS自动回收。这个指定的时间就是生命周期。
需要注意的是,生命周期到期的检测并不是实时进行的,而是每天一次定时启动,所以可能存在实际存活时间超过生命周期的情况,但最多不超过48小时,详情见下官方文档解释。
注意:生命周期回收都是每天定时启动,扫描全量分区,扫到的时刻,Last modify time超过 lifecycle指定的时间才回收。
假设某个分区表生命周期为1天,其中一个分区最后一次数据被修改的时间是17号15点多写的,如果18号的回收扫描在15点前扫到这个表(不到一天),那就不会回收17号这个分区。19号回收扫描时才发现这个表的这个分区Last modify time超过 lifecycle指定的时间才会回收。
除了一些特殊需求的表和维表外,理应为所有表设定生命周期,我们建议的生命周期设置方式见下表:
表 | 场景 | 建议生命周期 |
---|---|---|
原数据表 | 下游已完整解析 | 7天 |
原数据表 | 下游部分解析 | 按业务需求保存 |
日增量di表 | 可再生 | 1~3天 |
日增量di表 | 不可再生 | 按业务需求保存 |
全量df表 |