打造实时数据集成平台——DataPipeline基于Kafka Connect的应用实践

最新推荐文章于 2024-05-09 14:11:05 发布

牵一缕阳光

最新推荐文章于 2024-05-09 14:11:05 发布

阅读量520

点赞数

文章标签：打造实时数据集成平台

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhangjing5566/article/details/90404897

版权

导读：传统ETL方案让企业难以承受数据集成之重，基于Kafka Connect构建的新型实时数据集成平台被寄予厚望。

在4月21日的Kafka Beijing Meetup第四场活动上，DataPipeline CTO陈肃分享了DataPipeline是如何基于Kafka Connect框架构建实时数据集成平台的应用实践。以下内容是基于现场录音整理的文字，供大家参考。

什么是数据集成？最简单的应用场景就是：一个数据源，一个数据目的地，数据目的地可以一个数据仓库，把关系型数据库的数据同步到数据仓库里，就形成了一次数据集成。

企业数据集成面临的4个挑战
在这里插入图片描述

我们先来看一个真实的数据集成案例。

G公司是DataPipeline的一个典型客户，拥有近千个数据源，类型主要包括Oracle、SQL Server、MySQL等。根据业务的需要和现有的基础设施情况，这些数据源分别需要同步到不同的目的端，类型主要包括MySQL、HDFS、Kafka等。基于以上背景，G公司的具体要求如下：

需要支持约5TB日新增数据量的同步，今年将增长5-10倍。
这些数据一部分数据源要求实时同步，另一部分可接受定时同步。
缺乏强大的运维人才，现有数据源的业务承载压力有限，对压力非常的敏感，要求进行限流。
从这些数据源到目的地的同步都是Kettle写脚本实现的，管理起来比较混乱，要求通过一个管理平台对任务进行集中化的配置和管理。
上游的数据源和下游的数据目的都不稳定，随时可能出现各种问题，要求通过一个高可用的平台以减少数据传输中断的影响。
当数据同步任务被随机的暂停/恢复时，要求可以保证数据的完整性。
当数据源和目的地随机出现故障和过载时，要求可以保证数据的完整性。
当数据源Schema发生变化时，要求可以根据业务需求灵活配置目的地策略。

G公司的案例只是当前企业数据集成需求的一个典型应用场景。事实上，无论是互联网企业还是传统企业，在面临数据集成的时候都会遇到以下4个挑战：

数据源的异构性：传统ETL方案中，从数据源到目的地的同步都是脚本实现的，异构数据源就意味着企业要做大量的适配工作。
数据源的动态性：在数据集成时，上游的数据源端经常会发生各种变化，有些数据源可能被删掉一些结构，这可能会影响到后续数据分析的结果。
任务的可伸缩性：当数据集成只有几个数据源，系统压力的问题不太突出。当数据集成面临的是成百上千个数据源时，多

最低0.47元/天解锁文章

牵一缕阳光

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
打造实时数据集成平台——DataPipeline基于Kafka Connect的应用实践

导读：传统ETL方案让企业难以承受数据集成之重，基于Kafka Connect构建的新型实时数据集成平台被寄予厚望。在4月21日的Kafka Beijing Meetup第四场活动上，DataPipeline CTO陈肃分享了DataPipeline是如何基于Kafka Connect框架构建实时数据集成平台的应用实践。以下内容是基于现场录音整理的文字，供大家参考。什么是数据集成？最简单的应用...
复制链接

扫一扫

牵一缕阳光 CSDN认证博客专家 CSDN认证企业博客

码龄5年

17: 原创

105万+: 周排名

156万+: 总排名

5万+: 访问

: 等级

688: 积分

13: 粉丝

7: 获赞

3: 评论

60: 收藏

私信

关注

热门文章

最新评论

数据交换平台
剥皮的马铃薯: 请教博主，多级模式下，某个单位数据发生变化，需要将其他单位的数据进行同步更新(使用的是TCP IP传输)，如果想要优化这种同步的速度，该从哪方面入手比较好
数据交换平台
RestCloud: MongoDB Atlas数据湖允许客户使用MongoDB查询语言(MQL)在S3上快速查询任何格式的数据，包括JSON、BSON、CSV、TSV、Parquet和Avro。全文搜索为最终用户提供了对数据进行过滤、排名和排序的灵活性，从而快速显示出最相关的结果，而无需将数据库与外部搜索引擎配对，也无需学习、扩展、管理和支持两个完全独立的系统。MongoDB图表通常对地图集和本地客户都是可用的，为他们提供了最快和最简单的方法来创建MongoDB数据的实时可视化。比如国内商业级数据交换平台RestCloud能在 MongoDB 中进行自动分库存储。
如何使用元数据管理？
这个昵称中不中: 文字挺详细的，但是博主有响应的图片吗？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。