实时数据流处理简介

最近在组内作了次简单的分享,题目是实时数据流的处理,切入点主要是推荐系统中多种实时数据流的实时计算问题,当然像搜索的trends, 广告的实时计费等也可能会碰到类似的问题,PPT里面简单的介绍了下线上系统实际的结构和流程,系统上线运行近半年多,虽然没有出现过问题,其中有些问题还是值得修改和改善的,如果有业务相关的需求,这些问题会一并改善。

    主要处理的问题:

1. 乱序的问题,这个在多数据流实时系统比较常见,即多种数据到达系统的时间不一致,传统的window join方法不太work

2.  低延迟和可扩展性,实时数据处理要为online model和service提供服务,秒级别的延迟是必须的,为应对可能的数据增长,可扩展性也是必须的。

现有系统面临的问题:

1.  数据服务化的问题,实时计算处理的中间数据不能很好的为第三方服务所共享,需要有中间数据落地或者API基本的数据暴露接口,避免重复计算和处理

2. 数据处理效率的问题,从kafka拉取数据时消息堆积、缓存处理等

3. 缓存处理问题,包括服务容错处理和缓存失效机制的问题,容错

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值