FlinkCDC系列02: Seatunnel-Flink-JDBC-Sink如何实现Update

首先阅读Apache Seatunnel官网的关于Flink-JDBC-Sink的文档格式

JdbcSink {
    source_table_name = fake
    driver = com.mysql.jdbc.Driver
    url = "jdbc:mysql://localhost/test"
    username = root
    query = "insert into test(name,age) values(?,?)"
    batch_size = 2
}

首先要吐槽一下就是官网的这个文档几乎什么都没说啊。

Seatunnel-2.1.1-flink-jdbc-sink

这样子有个问题,就是我能不能实现类似spark-jdbc-sink中的update呢?一个只能处理新增不能处理修改的Sink是不合格的!

直接加saveMode这个参数是不行,因为代码里就没有这个参数,要知道到底支持什么参数,必须要直接阅读源码才行。

2.1.1版本Flink-jdbc-sink源代码

查看Config.java可知,根本没有saveMode这个参数。

进一步阅读Sink目录下的JdbcSink.java文件(核心代码)

从prepare这一段代码可知,还有个文档没写的参数叫做password(吐槽)

    @Override
    public void prepare(FlinkEnvironment env) {
        driverName = config.getString(DRIVER);
        dbUrl = config.getString(URL);
        username = config.getString(USERNAME);
        query = config.getString(QUERY);
        if (config.hasPath(PASSWORD)) {
            password = config.getString(PASSWORD);
        }
        if (config.hasPath(SINK_BATCH_SIZE)) {
            batchSize = config.getInt(SINK_BATCH_SIZE);
        }
        if (config.hasPath(SINK_BATCH_INTERVAL)) {
            batchIntervalMs = config.getLong(SINK_BATCH_INTERVAL);
        }
        if (config.hasPath(SINK_BATCH_MAX_RETRIES)) {
            maxRetries = config.getInt(SINK_BATCH_MAX_RETRIES);
        }
    }

 接下来就是重点了,阅读关于stream数据和batch数据分别以JDBC方式写入的核心实现

@Override
    public void outputStream(FlinkEnvironment env, DataStream<Row> dataStream) {
        Table table = env.getStreamTableEnvironment().fromDataStream(dataStream);
        TypeInformation<?>[] fieldTypes = table.getSchema().getFieldTypes();

        int[] types = Arrays.stream(fieldTypes).mapToInt(JdbcTypeUtil::typeInformationToSqlType).toArray();
        SinkFunction<Row> sink = org.apache.flink.connector.jdbc.JdbcSink.sink(
            query,
            (st, row) -> JdbcUtils.setRecordToStatement(st, types, row),
            JdbcExecutionOptions.builder()
                .withBatchSize(batchSize)
                .withBatchIntervalMs(batchIntervalMs)
                .withMaxRetries(maxRetries)
                .build(),
            new JdbcConnectionOptions.JdbcConnectionOptionsBuilder()
                .withUrl(dbUrl)
                .withDriverName(driverName)
                .withUsername(username)
                .withPassword(password)
                .build());

        if (config.hasPath(PARALLELISM)) {
            dataStream.addSink(sink).setParallelism(config.getInt(PARALLELISM));
        } else {
            dataStream.addSink(sink);
        }
    }

    @Override
    public void outputBatch(FlinkEnvironment env, DataSet<Row> dataSet) {
        Table table = env.getBatchTableEnvironment().fromDataSet(dataSet);
        TypeInformation<?>[] fieldTypes = table.getSchema().getFieldTypes();
        int[] types = Arrays.stream(fieldTypes).mapToInt(JdbcTypeUtil::typeInformationToSqlType).toArray();

        JdbcOutputFormat format = JdbcOutputFormat.buildJdbcOutputFormat()
                .setDrivername(driverName)
                .setDBUrl(dbUrl)
                .setUsername(username)
                .setPassword(password)
                .setQuery(query)
                .setBatchSize(batchSize)
                .setSqlTypes(types)
                .finish();
        dataSet.output(format);
    }

相关的api文档:

setRecordToStatement

Sink

简单的概括一下,在流式数据源中,需要一个query语句和一个statement装配器,flink程序会验证?的数量,并且按照顺序把row中数据装配进去。

在批处理中则是直接加进setQuery中了。

那么要如何实现Update呢?网上的答复基本上都是建议使用Table API(废话,我要是准备自己实现就不会用Seatunnel了!)

Flink的JDBC Connector是这么写的,如果定义了primary key,那么就可以以upsert的语法进行插入,然后我找了半天也不知道怎么在JdbcSink这个Sink代码里加入相关内容。

那么,既然query是直接进装配器的,那么可以不可以直接通过写一段?数量相同的upsert语句呢?

是可以的。

最终语句如下:

source {
  # This is a example input plugin **only for test and demonstrate the feature input plugin**
    FakeSourceStream {
      result_table_name = "fake"
      field_name = "name,age"
    }

  # If you would like to get more information about how to configure seatunnel and see full list of input plugins,
  # please go to https://seatunnel.apache.org/docs/flink/configuration/source-plugins/Fake
}
sink {
  JdbcSink {
    source_table_name = fake
    driver = "com.mysql.cj.jdbc.Driver"
    url = "jdbc:mysql://192.168.SomeRandomIp:3306/data_for_test"
    username = "root"
    password = "Dont Try to Guess My Password"
    query = "insert into hello(name,age) values(?,?) on duplicate key update age=ifnull(VALUES (age), age)"
    batch_size = 2
  }}

 接上默认的FakeDataStream后实现效果如下:

 

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
### 回答1: flink-connector-jdbc_2.12 是 Apache Flink 的一个连接器,用于将 Flink 与关系型数据库进行连接和交互。_2.12 表示这个连接器是为 Scala 2.12 版本编译的。以下是关于这个连接器的一些详细说明: 1. 功能:flink-connector-jdbc_2.12 提供了将 Flink 作业与关系型数据库集成的功能。它可以读取和写入关系型数据库中的数据,并提供对数据流的持久化和查询执行能力。 2. 数据源:这个连接器可以作为 Flink 作业的数据源,从关系型数据库中读取数据。它支持读取整个表、查询结果集或自定义的 SQL 查询。读取的数据可以作为 Flink 的 DataStream 进行处理和转换。 3. 数据接收器:此连接器也可以作为 Flink 作业的数据接收器,将流数据写入关系数据库,例如将计算结果持久化到数据库中。它支持插入、更新和删除操作,可以根据业务逻辑将流数据写入到相应的数据库表中。 4. 数据格式:flink-connector-jdbc_2.12 支持多种数据格式的读写,如 Avro、JSON、ORC、Parquet 等。它提供了对这些数据格式的解析和序列化功能,并将其映射到关系型数据库中的表结构。 5. 事务支持:此连接器还具备事务支持的能力,可以在作业执行期间确保数据的一致性和可靠性。它能够处理作业失败、重启等情况,并保证数据的完整性。 6. 配置灵活:flink-connector-jdbc_2.12 提供了丰富的配置选项,可以根据不同的数据库类型和连接要求进行灵活的配置。可以设置连接URL、用户名、密码、最大连接数等参数。 总之,flink-connector-jdbc_2.12 是一个用于 Apache Flink 的关系型数据库连接器,它提供了将 Flink 与关系型数据库集成的功能,可以实现数据的读写和持久化。使用该连接器,我们可以方便地处理和分析关系型数据库中的数据,并能够根据业务需求进行定制配置和操作。 ### 回答2: flink-connector-jdbc_2.12是Apache Flink的一个连接器(connector),旨在连接Flink与关系型数据库。它是为了通过Flink将数据从关系型数据库读取到流式数据流中,或将流式数据写入到关系型数据库中而开发的。 该连接器支持与各种关系型数据库的连接,如MySQL、PostgreSQL、Oracle等,并提供了读取和写入数据库的功能。通过使用JDBC(Java Database Connectivity)接口,flink-connector-jdbc_2.12可以与各种数据库进行通信并执行SQL查询和操作。 使用该连接器,用户可以从关系型数据库中实时读取数据,并将其转换为Flink数据流进行处理。同时,也可以将流式数据写入到关系型数据库中,用于持久化存储或与其他系统交互。这使得Flink可以无缝地与现有的关系型数据库集成,为用户提供更多的数据处理和分析功能。 通过flink-connector-jdbc_2.12,用户可以配置数据源和数据接收器,指定连接数据库的信息、数据表、查询条件等,并对数据进行转换、过滤、聚合等操作。它提供了高度可靠和可扩展的数据处理能力,使得用户可以轻松地实现复杂的数据处理和分析任务。 总而言之,flink-connector-jdbc_2.12是Apache Flink提供的一个连接器,用于连接Flink与关系型数据库,支持数据的读取和写入操作,使得Flink可以与关系型数据库无缝集成,为用户提供更多的数据处理和分析功能。 ### 回答3: flink-connector-jdbc_2.12是Apache Flink的一个官方支持的JDBC连接器,用于将Flink与关系型数据库进行连接和交互。在Flink中使用该连接器,可以方便地读取和写入关系型数据库中的数据。 flink-connector-jdbc_2.12提供了丰富的功能和特性。首先,它支持从关系型数据库读取数据,并将其作为DataStream或Table进行处理和操作。这使得我们可以利用Flink的流式处理和批量处理功能来处理数据库中的数据。其次,它也支持将DataStream或Table中的数据写入到关系型数据库中,实现数据的持久化和存储。这对于需要将计算结果保存到数据库中的场景非常有用。 此外,flink-connector-jdbc_2.12还提供了一些高级功能,例如事务支持和Exactly-Once语义。通过使用JDBC连接器,我们可以在Flink实现端到端的Exactly-Once一致性保证,确保数据在读取和写入过程中的一致性和可靠性。 flink-connector-jdbc_2.12支持多种数据库系统,如MySQL、PostgreSQL、Oracle等。并且它还提供了一些配置选项,如连接池配置、批量写入配置等,可以根据具体需求进行调整和优化。 总而言之,flink-connector-jdbc_2.12是一个非常有用和强大的工具,可以帮助我们在Flink中与关系型数据库进行无缝连接和数据交互。它不仅提供了读写数据的功能,还支持事务和Exactly-Once语义,使得我们可以在Flink中构建高效和可靠的数据处理流程。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值