三十七、《大数据项目实战之用户行为分析》Structured Streaming消费Kafka数据实现单词计数

最新推荐文章于 2024-07-20 07:15:00 发布

大数据张老师

最新推荐文章于 2024-07-20 07:15:00 发布

阅读量663

点赞数

分类专栏： # 手把手搭建企业级大数据搜索引擎用户行为分析系统文章标签： kafka 大数据 spark SparkStreaming

本文链接：https://blog.csdn.net/xiaosa5211234554321/article/details/127510944

版权

手把手搭建企业级大数据搜索引擎用户行为分析系统专栏收录该内容

43 篇文章 15 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了如何使用Spark的Structured Streaming与Kafka集成，实现实时读取Kafka数据并进行单词计数。首先，在Maven项目中导入相关依赖，然后编写StructuredKafkaWordCount.scala程序，从Kafka读取流数据并转换为字符串，通过指定检查点目录确保容错性。最后，程序在IDEA中运行，展示如何累加计算不同批次的单词计数结果。

摘要由CSDN通过智能技术生成

Structured Streaming可以作为消费者与Kafka整合，实时读取Kafka中的数据进行处理。Structured Streaming与Kafka整合，需要Kafka的版本在0.10.0以上。以Kafka为数据源，实现单词计数程序的操作步骤如下：

1. 导入依赖库

在Maven项目的pom.xml中导入以下依赖库：

<!--Spark核心库-->

<dependency>

   <groupId>org.apache.spark</groupId>

   <artifactId>spark-core_2.12</artifactId>

   <version>3.2.1</version>

</dependency>

<!--Spark SQL依赖库-->

<dependency>

   <groupId>org.apache.spark</groupId>

   <artifactId>spark-sql_2.12</artifactId>

   <version>3.2.1</version>

</dependency>

<!-- Structured Streaming针对Kafka的依赖库-->

<dependency>

   <groupId>org.apache.spark</groupId>

   <artifactId>spark-streaming-kafka-0-10_2.12</artifactId>

了解本专栏

超级会员免费看

大数据张老师

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
三十七、《大数据项目实战之用户行为分析》Structured Streaming消费Kafka数据实现单词计数

Structured Streaming可以作为消费者与Kafka整合，实时读取Kafka中的数据进行处理。Structured Streaming与Kafka整合，需要Kafka的版本在0.10.0以上。时间戳的类型，取值0和1。目前Kafka支持的时间戳类型有两种：0表示 CreateTime，即生产者创建这条消息的时间；使用option()指定Kafka的连接属性，常用的连接属性解析如表。可以看到，最新批次的输出结果在上一批次结果的基础上进行了累加。上述依赖库中的2.12指的是Scala的版本。
复制链接

扫一扫