大数据系统设计开发备忘要点

原则性

  1. 基于hadoop集群的计算需要考虑排队
  2. 长时间的数据计算需要考虑数据源的稳定性【是否会有数据增删修改或周期性大规模迭代更新,以及数据是否在业务有效生命周期内】,并保证待计算数据源的稳定性,不能产生与时间有关的源数据的变化。
  3. 对数据源的稳定性【数据源时间段内不可用】以及上下文数据之间产出周期【如果前一个数据源不能按时产出或者产出不正确,下一个数据处理阶段如何处理】是否能无缝衔接或者是否容许间断衔接,而无缝衔接在发生意外时,如果数据具有业务有效时间限制,如何处理保证数据的有效性。间断衔接情况下如何设计系统。
  4. 大型数据计算系统一定不能依赖业务数据有效时间,需要保证系统即使超出或者不在有效时间内时,如果具备完善数据情况下也要能够正确计算,即对计算的时间无实时依赖。【系统代码中最好无DateTime.Now,getdate(),now()等函数,相关时间一定要有指定数值】
  5. 时间是数据有效性【超出业务有效期,或者计算系统对实时有着不良依赖】、稳定性【基于时间会有对数据的操作可能产生】的隐性因素。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值