导读:本文将介绍 SeaTunnel 超大数据量的数据集成平台,主要围绕以下内容展开:
-
SeaTunnel 的设计目标
-
SeaTunnel 现状
-
SeaTunnel 整体设计
-
近期规划
分享嘉宾|高俊 白鲸开源 架构师
编辑整理|王鹏 滴滴出行
出品社区|DataFun
01
SeaTunnel 的设计目标
SeaTunnel 的目标是打造一个简单易用的、分布式可扩展的支持超大数据级的高吞吐低延时的数据集成平台,主要解决以下 4 个问题:
-
数据源多,版本间不兼容,而且不断有新的出现
-
离线同步和实时同步常被分开管理,维护困难
-
企业技术栈差异大,导致选择同步组件时需要更多的学习成本
-
数据同步需要高吞吐低时延,数据一致性要求高
02
SeaTunnel 现状
目前 SeaTunnel 支持的连接器有 50 个以上,包括 Source 有 20 多个,目标端 20 多个,Transform 有十几个。
这些连接器基本上都是批流一体的,Apache Pulsar 连接器让开发者只实现一个连接器,就可以同时支持离线同步任务和实时同步任务。同时可以支持纯流和微批两种方式。
SeaTunnel 支持多引擎,以便更好的兼容企业已有的技术生态,降低企业在数据同步场景下使用 SeaTunnel 的技术成本。主流的大数据处理引擎 SeaTunnel 都支持:包括多个版本的 Flink,Spark,以及 SeaTunnel 自己的引擎 SeaTunnel Engine。
在性能和一致性方面,SeaTunnel 具有以下特性:
-
高吞吐:SeaTunnel 支持 Source/Transform/Sink 算子的并行化处理,提高吞吐性能。
-
低延迟:基于引擎提供的实时处理或微批处理实现低延迟。
-
精确性:基于引擎提供的分布式快照算法,包括 Sink 端两阶段提交、幂等写入,Source 端的读回放等这些特性,保证数据精确处理一次(Exactly-Once)。
03