Seatunnel系列之:深入理解Seatunnel,快速应用Seatunnel实现数据同步
一、认识Seatunnel
- 下一代高性能,分布式、海量数据集成工具。
- SeaTunnel是一个非常易用、超高性能的分布式数据集成平台,支持海量数据的实时同步。每天可稳定高效同步数百亿数据,已被近百家企业应用于生产。
二、SeaTunnel工作流程图
SeaTunnel的运行流程如上图所示。
- 用户配置作业信息并选择提交作业的执行引擎。
- Source Connector负责并行读取数据并将数据发送到下游Transform或直接发送到Sink,Sink将数据写入目的地。值得注意的是,Source、Transform 和 Sink 可以很容易地自行开发和扩展。
- SeaTunnel 是一个 EL(T) 数据集成平台。因此,在SeaTunnel中,Transform只能用于对数据进行一些简单的转换,例如将一列的数据转换为大写或小写,更改列名,或者将一列拆分为多列。
- SeaTunnel 使用的默认引擎是 SeaTunnel Engine。如果选择使用Flink或Spark引擎,SeaTunnel会将Connec