【实践案例】Databricks 数据洞察 Delta Lake 在基智科技(STEPONE)的应用实践

基智科技采用Databricks数据洞察和Delta Lake,解决了传统ETL耗时长、成本高的问题。通过实时数据入库,实现批流一体操作,提升了数据处理效率和数据安全性,并降低了成本。后续计划进一步优化实时数仓结构,探索Delta Lake的高级功能。
摘要由CSDN通过智能技术生成

作者

高爽,基智科技数据中心负责人

尚子钧,数据研发工程师

1

基智科技

北京基智科技有限公司是一家提供智能营销服务的科技公司。公司愿景是基于 AI 和大数据分析为 B2B 企业提供全流程的智能营销服务。公司秉承开放,挑战,专业,创新的价值观从线索挖掘到 AI 智达、CRM 客户管理覆盖客户全生命周期,实现全渠道的营销和数据分析决策,帮助企业高效引流,精准拓客,以更低的成本获取更多的商机。截至目前,基智科技已与包括房产、教育、汽车、企业服务等领域展开广泛合作。

2

背景

在基智科技目前的离线计算任务中,大部分数据源都是来自于业务  DB(MySQL) 。业务 DB 数据接入的准确性、稳定性和及时性,决定着下游整个离线计算 pipeline 的准确性和及时性。最初我们在 ECS 上搭建了自己的 Hadoop 集群,每天使用 Sqoop 同步 MySQL 数据,再经由 Spark ETL 任务,落表写入 Hive ,ES,MongoDB 、MySQL ,通过调用 Service API 做页签的展示。

我们的 ETL 任务一般在凌晨1点开始运行,数据处理阶段约1h, Load 阶段1h+,整体执行时间为2-3h,下图为我们的 ETL 过程:

3

存在的问题

上面的架构在使用的过程中以下几个问题比较突出:

  • 随着业务数据的增长,受 DB 性能瓶颈影响突出。

  • 需要维护多套数据源,数据冗杂,容易形成数据孤岛使用不方便。

  • 天级 ETL 任务耗时久,影响下游依赖的产出时间。

  • 数据主要存储在 HDFS 上,随着

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值