SeaTunnel 超大数据量数据集成平台设计

最新推荐文章于 2024-06-14 13:02:43 发布

松鼠协会总动员

最新推荐文章于 2024-06-14 13:02:43 发布

阅读量1.5k

点赞数 2

分类专栏：大数据算法机器学习文章标签：数据库大数据 java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yyaannnnnnnn/article/details/128750607

版权

本文详细介绍了SeaTunnel的设计目标、现状和整体架构，旨在打造一个支持超大数据级、高吞吐低延时的数据集成平台。SeaTunnel已支持50多个连接器，兼容多种数据源和目标端，支持Flink、Spark等多种引擎，具备高吞吐、低延迟和数据一致性保障。其未来规划包括连接器数量翻倍、发布Web模块和SeaTunnel Engine，以提升易用性和性能。

摘要由CSDN通过智能技术生成

导读：本文将介绍 SeaTunnel 超大数据量的数据集成平台，主要围绕以下内容展开：

SeaTunnel 的设计目标
SeaTunnel 现状
SeaTunnel 整体设计
近期规划

分享嘉宾｜高俊白鲸开源架构师

编辑整理｜王鹏滴滴出行

出品社区｜DataFun

01

SeaTunnel 的设计目标

SeaTunnel 的目标是打造一个简单易用的、分布式可扩展的支持超大数据级的高吞吐低延时的数据集成平台，主要解决以下 4 个问题：

数据源多，版本间不兼容，而且不断有新的出现
离线同步和实时同步常被分开管理，维护困难
企业技术栈差异大，导致选择同步组件时需要更多的学习成本
数据同步需要高吞吐低时延，数据一致性要求高

02

SeaTunnel 现状

目前 SeaTunnel 支持的连接器有 50 个以上，包括 Source 有 20 多个，目标端 20 多个，Transform 有十几个。

这些连接器基本上都是批流一体的，Apache Pulsar 连接器让开发者只实现一个连接器，就可以同时支持离线同步任务和实时同步任务。同时可以支持纯流和微批两种方式。

SeaTunnel 支持多引擎，以便更好的兼容企业已有的技术生态，降低企业在数据同步场景下使用 SeaTunnel 的技术成本。主流的大数据处理引擎 SeaTunnel 都支持：包括多个版本的 Flink，Spark，以及 SeaTunnel 自己的引擎 SeaTunnel Engine。

在性能和一致性方面，SeaTunnel 具有以下特性：

高吞吐：SeaTunnel 支持 Source/Transform/Sink 算子的并行化处理，提高吞吐性能。
低延迟：基于引擎提供的实时处理或微批处理实现低延迟。
精确性：基于引擎提供的分布式快照算法，包括 Sink 端两阶段提交、幂等写入，Source 端的读回放等这些特性，保证数据精确处理一次（Exactly-Once）。

03

最低0.47元/天解锁文章

松鼠协会总动员

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

松鼠协会总动员 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。