Flink DataStream API （四）Flink 读取 Kafka

最新推荐文章于 2023-06-12 14:16:55 发布

Alienware^

最新推荐文章于 2023-06-12 14:16:55 发布

阅读量1.3k

点赞数 1

分类专栏： # Flink 文章标签： Flink

本文链接：https://blog.csdn.net/weixin_45417821/article/details/124146085

版权

Flink 专栏收录该内容

86 篇文章 59 订阅

订阅专栏

Kafka 作为分布式消息传输队列，是一个高吞吐、易于扩展的消息系统。而消息队列的传输方式，恰恰和流处理是完全一致的。所以可以说 Kafka 和 Flink 天生一对，是当前处理流式数据的双子星。在如今的实时流处理应用中，由 Kafka 进行数据的收集和传输，Flink 进行分析计算，这样的架构已经成为众多企业的首选

在这里插入图片描述

创建kafka Topic clicks

[root@hadoop102 kafka]# bin/kafka-topics.sh \
--zookeeper hadoop102:2181,hadoop103:2181,hadoop104:2181/kafka \
--create --topic clicks --replication-factor 2 --partitions 1

kafka 生产消息：

[root@hadoop102 kafka]# bin/kafka-console-producer.sh \
--broker-list hadoop102:9092 --topic clicks 
>Mary ./home 1000
>Alice ./cart 2000
>

引入 Kafka 连接器的依赖。Flink 官方提供的是一个通用的 Kafka 连接器，它会自动跟踪最新版本的 Kafka 客户端。目前最新版本只支持 0.10.0 版本以上的 Kafka，读者使用时可以根据自己安装的 Kafka 版本选定连接器的依赖版本

<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-connector-kafka_${scala.binary.version}</artifactId>
    <version>${flink.version}</version>
</dependency>

只需要调用addSource函数，传入 FlinkKafkaConsumer 的对象实例就可以了

创建 FlinkKafkaConsumer 时需要传入三个参数：

第一个参数 topic，定义了从哪些主题中读取数据。可以是一个 topic，也可以是 topic列表，还可以是匹配所有想要读取的 topic 的正则表达式。当从多个 topic 中读取数据时，Kafka 连接器将会处理所有 topic 的分区，将这些分区的数据放到一条流中去。
第二个参数是一个 DeserializationSchema 或者 KeyedDeserializationSchema。Kafka 消息被存储为原始的字节数据，所以需要反序列化成 Java 或者 Scala 对象。上面代码中使用的 SimpleStringSchema，是一个内置的DeserializationSchema，它只是将字节数组简单地反序列化成字符串。DeserializationSchema 和 KeyedDeserializationSchema 是公共接口，所以我们也可以自定义反序列化逻辑。
第三个参数是一个 Properties 对象，设置了 Kafka 客户端的一些属性。

代码展示结果如下：
在这里插入图片描述
源代码：Flink读取Kafka作为数据源