实时数仓与离线数仓在开发上的区别

  1. 离线方案的调度周期决定了其使用场景,及时性及准确性可以按照产出批次进行监控,如果数据出错存在修复的可能。
    实时任务是常驻任务,一旦出现错误,就将直接被用户感知,且刷掉错误数据较为麻烦,因此对数据质量,及其监控手段的要求更高。
    且大屏等高级场景需要进行压测、并进行多链路搭建来保障数据及时可用。
  2. 实时计算不能完全照搬离线层级,应该合并计算单元,降低拓扑层级,在降低资源占用的同时提高可用性。
  3. 离线存储空间巨大,数据模型中如有需要可以全量表的形式存储。
    实时侧数据主要集中与事务性数据,维表需要从离线拉取,且通常取T-2; 数据加载进内存,对资源要求更高
  4. 离线数据数据有界数据,按照调度周期处理数据,易于理解与操作。
    实时数据在关联、加工复合型指标的场景下,需要对齐时间线,随着无界数据的持续输入,数据状态始终在发生变化,
    明细数据量大,则OLAP引擎压力加大;聚合粒度高,则由于无界数据完整性带来的数据误差会加大。
    故需要根据实际情况在 flink 聚合与 OLAP 引擎聚合之间找到平衡点
  5. 离线数据可以保证绝对的准确性,实时数据在去重指标上,会采用相关算法进行估算,理论上存在一定误差,需要管理预期。
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值