​SeaTunnel 超大数据量数据集成平台设计

导读:本文将介绍 SeaTunnel 超大数据量的数据集成平台,主要围绕以下内容展开:

  • SeaTunnel 的设计目标

  • SeaTunnel 现状

  • SeaTunnel 整体设计

  • 近期规划

分享嘉宾|高俊 白鲸开源 架构师

编辑整理|王鹏 滴滴出行

出品社区|DataFun


01

SeaTunnel 的设计目标

SeaTunnel 的目标是打造一个简单易用的、分布式可扩展的支持超大数据级的高吞吐低延时的数据集成平台,主要解决以下 4 个问题:

  • 数据源多,版本间不兼容,而且不断有新的出现

  • 离线同步和实时同步常被分开管理,维护困难

  • 企业技术栈差异大,导致选择同步组件时需要更多的学习成本

  • 数据同步需要高吞吐低时延,数据一致性要求高

02

SeaTunnel 现状

目前 SeaTunnel 支持的连接器有 50 个以上,包括 Source 有 20 多个,目标端 20 多个,Transform 有十几个。

这些连接器基本上都是批流一体的,Apache Pulsar 连接器让开发者只实现一个连接器,就可以同时支持离线同步任务和实时同步任务。同时可以支持纯流和微批两种方式。

SeaTunnel 支持多引擎,以便更好的兼容企业已有的技术生态,降低企业在数据同步场景下使用 SeaTunnel 的技术成本。主流的大数据处理引擎 SeaTunnel 都支持:包括多个版本的 Flink,Spark,以及 SeaTunnel 自己的引擎 SeaTunnel Engine。

在性能和一致性方面,SeaTunnel 具有以下特性:

  • 高吞吐:SeaTunnel 支持 Source/Transform/Sink 算子的并行化处理,提高吞吐性能。

  • 低延迟:基于引擎提供的实时处理或微批处理实现低延迟。

  • 精确性:基于引擎提供的分布式快照算法,包括 Sink 端两阶段提交、幂等写入,Source 端的读回放等这些特性,保证数据精确处理一次(Exactly-Once)。

03

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

松鼠协会总动员

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值