Kafka Connect 构建大规模低延迟的数据管道

Apache Kafka的Kafka Connect框架简化了大规模实时数据集成,提供Schema管理、容错、并行处理等功能,旨在鼓励开源Connector生态并简化数据集成应用。通过Sources和Sinks实现数据导入导出,支持多种数据源和目标系统的流数据传输。
摘要由CSDN通过智能技术生成

很长一段时间以来,公司所做的大部分数据处理都是作为批作业运行,例如,从数据库中转储的 CSV 文件、在一天结束时收集的日志文件等。但企业是实时一直运营的,与其只在一天结束时处理数据,还不如在数据到达时就对其做出反应?这是流处理的新兴世界。但是只有当数据捕获以流的方式完成时,流处理才成为可能;毕竟,我们无法将每天批量处理的 CSV 转储作为流处理。这种向流处理的转变推动了 Apache Kafka 的流行。但是,即使使用 Kafka,构建这种类型的实时数据管道也需要付出一些努力。

Apache Kafka 0.9+ 中的一项新功能 Kafka Connect 使构建和管理流数据管道变得更加容易。

1. 流数据平台:所有数据的中心枢纽

 

我们有机会在 LinkedIn 构建了一个基于 Kafka 的流数据平台。我们认为流数据的未来就是流数据平台,可以作为所有数据的中心枢纽,在公司范围内广泛运行并支持各种分布式应用程序和系统以流的方式实时消费和处理数据。

流数据平台可以完成两件事:

  • 数据集成:流数据平台捕获事件流或者数据变改,并将它们提供给其他数据系统,例如,关系数据库、KV存储、Hadoop 或者数据仓库。

  • 流式处理:支持对流进行连续、实时的处理与转换,并使结果在系统范围内可用。

在这里,我们只关注数据集成,并探讨 Kafka Connect 如何通过提供一个通用框架来实现数据集成(

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值