【Flink 实战系列】Flink CDC 实时同步 Mysql 全量加增量数据到 Hudi
前言
Flink CDC 是基于 Flink 开发的变化数据获取组件(Change data capture),简单的说就是来捕获变更的数据,Apache Hudi 是一个数据湖平台,又支持对数据做增删改查操作,所以 Flink CDC 可以很好的和 Hudi 结合起来,打造实时数仓,实时湖仓一体的架构,下面就来演示一下同步的过程。
环境
组件 | 版本 |
---|---|
Flink | 1.15.1 |
Hadoop | 2.9.0 |
Hudi | 0.12.0 |
Mysql | 5.x |
Flink CDC | 2.3.0 |
添加 Jar 包依赖
为了方便演示,这里就直接采用 sql-client 提交任务的方式,在提交任务之前,需要先添加几个必要的 Jar 包。
flink-sql-connector-mysql-cdc-2.3.0.jar
hudi-flink1.15-bundle-0.12.0.jar
mysql-connector-java-5.1.47.jar
把这三个 Jar 包添加到 flink/lib 下面。