Flink sql 写ddl连接kafka

Flink sql 写ddl连接kafka踩坑日记

背景:flink_2.12-1.14.3
kafka_2.12-3.1.0

准备工作

  1. 上传flink的kafka连接器(flink-connector-kafka)
    将下载好的 flink-connector-kafka的jar包放在flink的lib目录下启动flink程序
  2. 编写flinksql的DDL语句
#kafka的读取ddl
CREATE TABLE source (
	name              STRING,
	age               STRING
) WITH (
	'connector' = 'kafka',
	'topic' = 'test',
	'properties.bootstrap.servers' = 'ip:prot',
	'properties.group.id' = 'group_test',
	'scan.startup.mode' = 'latest-offset',
	'format' = 'json'
);
#kafka的写入ddl
CREATE TABLE sink (
  	name   STRING,
  	sex  STRING
) WITH (
    'connector' = 'kafka',
    'topic' = 'test1',
    'properties.bootstrap.servers' = 'ip:prot',
    'format' = 'json'
);
#业务逻辑实现
insert into sink select * from source;
  1. 用bin/sql-client.sh -f xxx.sql 启动脚本提交任务

!!!可能出现的问题:
1.Caused by: java.lang.NoClassDefFoundError: org/apache/kafka/clients/consumer/OffsetResetStrategy
这是缺少kafka-clients的jar包,只需将下载的kafka-clients jar包放在lib目录下重启flink,提交任务

Exception in thread "main" org.apache.flink.table.client.SqlClientException: Unexpected exception. This is a bug. Please consider filing an issue.
	at org.apache.flink.table.client.SqlClient.startClient(SqlClient.java:201)
	at org.apache.flink.table.client.SqlClient.main(SqlClient.java:161)
Caused by: java.lang.NoClassDefFoundError: org/apache/kafka/clients/consumer/OffsetResetStrategy
	at org.apache.flink.connector.kafka.source.enumerator.initializer.OffsetsInitializer.earliest(OffsetsInitializer.java:147)
	at org.apache.flink.connector.kafka.source.KafkaSourceBuilder.<init>(KafkaSourceBuilder.java:104)
	at org.apache.flink.connector.kafka.source.KafkaSource.builder(KafkaSource.java:117)
	at org.apache.flink.streaming.connectors.kafka.table.KafkaDynamicSource.createKafkaSource(KafkaDynamicSource.java:379)
	at org.apache.flink.streaming.connectors.kafka.table.KafkaDynamicSource.getScanRuntimeProvider(KafkaDynamicSource.java:216)
	at org.apache.flink.table.planner.connectors.DynamicSourceUtils.validateScanSource(DynamicSourceUtils.java:452)
	at org.apache.flink.table.planner.connectors.DynamicSource
### Flink SQL连接 Kafka 数据源与 Sink 的配置 #### 使用 DDL 定义 Kafka Source 和 Sink 表格 为了在 Apache Flink 中使用 SQL 接口读取来自 Kafka 流的数据或将数据回到 Kafka,可以采用 `CREATE TABLE` 语句来声明外部系统的表格。对于 Kafka 而言,这涉及到指定主题名称、键/值序列化方式以及其他必要的参数。 ```sql -- 创建一个名为 kafka_source 的表用于从 Kafka 获取数据 CREATE TABLE kafka_source ( change_machine_id INT, totalwarning INT, window_end_time STRING ) WITH ( 'connector' = 'kafka', 'topic' = 'input-topic', -- 输入的主题名 'properties.bootstrap.servers' = 'localhost:9092', -- Kafka broker 地址 'format' = 'json', -- 消息格式为 JSON 'scan.startup.mode' = 'earliest-offset' ); -- 创建一个名为 mysql_sink 的表作为目标位置保存处理后的结果 INSERT INTO mysql_sink SELECT * FROM kafka_source; ``` 上述命令展示了如何定义一个基于 Kafka 的输入流,并将其内容插入到另一个已存在的 MySQL 输出表中[^1]。 #### 构建自定义的 Kafka Sink 实现高可靠性传输 除了简单的 SQL 插入外,在某些情况下可能还需要更复杂的逻辑控制,比如确保消息传递具有更高的可靠性和一致性级别。此时可以通过编程接口构建特定于应用需求的 Kafka Sink: ```java import org.apache.flink.connector.kafka.sink.KafkaSink; // 设置Kafka生产者属性 Properties props = new Properties(); props.setProperty("bootstrap.servers", "broker1:9092,broker2:9092"); // 构造Kafka Sink对象 KafkaSink<String> stringKafkaSink = KafkaSink.<String>builder() .setBootstrapServers("broker-list") .setRecordSerializer(KafkaRecordSerializationSchema.builder() .setTopic("output-topic") .setValueSerializationSchema(new SimpleStringSchema()) .build()) .setDeliverGuarantee(DeliveryGuarantee.AT_LEAST_ONCE) .build(); DataStream<String> stream = ... ; // 假设这里有一个字符串类型的DataStream stream.sinkTo(stringKafkaSink); ``` 这段 Java 代码片段说明了怎样创建一个带有至少一次投递保障机制 (`DeliveryGuarantee.AT_LEAST_ONCE`) 的 Kafka Sink 来发送记录给定的目标主题[^2]。 #### 利用 Flink SQL 处理并持久化至其他存储系统 当需要进一步加工由 Kafka 收集的信息时,则可借助 Flink 提供的强大计算引擎来进行复杂查询运算;之后再把得到的结果存放到像 HDFS 或关系型数据库这样的长期储存介质里去。例如,如果想要高效解析 Kafka 数据并将它们以 Parquet 文件形式存储到分布式文件系统上,那么就可以按照如下方式进行设置[^3]: ```sql -- 将经过过滤和聚合的操作后产生的中间状态定期出成 parquet 格式的文件 CREATE TABLE hdfs_parquet_table( ... ) PARTITIONED BY (...) WITH ( 'connector'='filesystem', 'path'='/user/flink/output/', 'format'='parquet' ); INSERT INTO hdfs_parquet_table SELECT ... ; ``` 以上就是关于如何在 Flink SQL 环境下配置 Kafka 数据源及 sink 的介绍,涵盖了基本概念及其实际应用场景下的实现细节。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值