pyflink oracle cdc null

欧阳伯疼

已于 2024-07-06 14:21:53 修改

阅读量541

点赞数 14

分类专栏： flink学习文章标签： python flink oracle

于 2024-07-06 14:20:02 首次发布

本文链接：https://blog.csdn.net/weixin_45741311/article/details/140228386

版权

flink学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

flink oracle数据同步 pyflink oracle cdc null ：

pyflink1.18 做oracle数据库数据同步，flink-oracle-cdc 读取出数据全部为null。

oracle数据库实时同步到数仓或数据湖。

pyflink tableapi 连接到oracle数据库，打印同步结果

flink建表及打印结果：

def oracle_cdc_2_doris(env):
    """
    Flink CDC 实时同步 Oracle 数据
    ORALE -- FLINK 大小写敏感 表名及表头 都要用大写
    -- 将要同步的表 开启全日志设置
    ALTER TABLE FLINK.ORACLE_SOURCE ADD SUPPLEMENTAL LOG DATA (ALL) COLUMNS
    """
    source_oracle = """
            CREATE TABLE cdc_oracle_source (
                id int,
                name STRING
            ) WITH (
                'connector' = 'oracle-cdc',
                'hostname' = '*.*.*.*',
                'port' = '1521',
                'username' = 'flink',
                'password' = 'flink',
                'database-name' = 'SID',
		        'schema-name' = 'SCHEMA',
		        'table-name' = 'ORACLE_SOURCE',
		        'debezium.database.tablename.case.insensitive' = 'false',
		        'debezium.log.mining.strategy' = 'online_catalog',
                'debezium.log.mining.continuous.mine' = 'true'
            );
        """
    sink_print = """create table if not exists sink_print (
    id int,
    name STRING
    )
    with 
    (
         'connector' = 'print'
    )
    """
    print_sql = "insert into sink_print select * from cdc_oracle_source;"
    select_sql = "select * from cdc_oracle_source;"

    env.execute_sql(source_oracle) # 创建连接mysql表
    env.execute_sql(sink_print) # 创建print表

    statement_set = env.create_statement_set() # 创建一个可接受 DML 语句或表的 Statementset 实例。 它可用于执行包含多个 sink 的作业
    statement_set.add_insert_sql(print_sql) # sql插入语句

    statement_set.execute().wait() # 执行 statement set

if __name__ == '__main__':
    t_env = TableEnvironment.create(EnvironmentSettings.in_streaming_mode())
    t_env.get_config().get_configuration().set_string("execution.checkpointing.interval", "3s")
    path = '/flink/jar_dir'
    filters = ['flink-connector-jdbc-3.1.2-1.18.jar', 'flink-doris-connector-1.18-1.6.0.jar', 'ojdbc6-11.2.0.4.jar', 'flink-sql-connector-oracle-cdc-2.2.1.jar']
    str_jars = get_jar_file(dir_path=path, need_jars=filters)
    t_env.get_config().set("pipeline.jars", str_jars)
    oracle_cdc_2_doris(env=t_env)
# 执行结果如下图