快手基于Apache Hudi的千亿级数据湖实践

快手大数据研发专家靳国卫分享了如何使用Apache Hudi解决数据调度、同步和修复回刷的痛点。通过对比业界解决方案,Hudi在功能丰富度、匹配度和社区活跃度上脱颖而出。Hudi的架构和写入流程设计有效解决了大数据的增删改查问题,尤其是在千亿级数据量下进行亿级更新的挑战。通过合理分区和文件大小设计,Hudi确保了数据回刷的高效性,并形成了一套通用解决方案。
摘要由CSDN通过智能技术生成

在这里插入图片描述

演讲者为靳国卫,快手大数据研发专家,负责用户增长数据团队

在这里插入图片描述

分为3部分介绍Hudi如何解决效率问题,首先是实际应用中遇到的痛点有哪些,业务诉求是什么,然后调研业界的解决方案,为什么选择Hudi来解决痛点问题,然后介绍在实践中如何使用Hud解决业务问题,并形成体系化的解决方案。

在这里插入图片描述

业务痛点包括数据调度、数据同步和修复回刷三大类痛点,包括数据全量回刷效率低。

在这里插入图片描述

三个场景通用来看,从业务诉求就是希望更快看到结果,像业务库那样数据准备好了就可以使用,由于业务库引擎限制,又希望使用大数据技术做分析,总的来看可以结合实时化和大数据的CRUD合并。

在这里插入图片描述

在业界进行调研后,发现有一些解决方

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值