【Spark实战系列】structuredstreaming 消费 kafka 数据实现简单的 wordcount

最新推荐文章于 2024-07-18 06:21:16 发布

JasonLee实时计算

最新推荐文章于 2024-07-18 06:21:16 发布

阅读量2.7k

点赞数 1

分类专栏： Spark 实战系列 kafka 文章标签： spark structuredStreaming kafka wordcount

本文链接：https://blog.csdn.net/xianpanjia4616/article/details/81842900

版权

Spark 实战系列同时被 2 个专栏收录

41 篇文章 289 订阅 ¥69.90 ¥99.00

订阅专栏

超级会员免费看

kafka

10 篇文章 0 订阅

订阅专栏

这篇博客通过一个简单的例子展示了如何在Spark中使用Structured Streaming从Kafka消费数据并实现wordcount。首先介绍了Structured Streaming将实时流抽象为无边界表的概念，然后提供了一段将数据直接打印到控制台的代码，并逐步修改为执行wordcount操作。最终，文章展示了输出结果，并邀请读者交流讨论。

摘要由CSDN通过智能技术生成

最近也是有很多同学问我,StructuredStreaming结合kafka的使用,我简单的写了一个wordcount的demo,后续会有更加具体和详细的介绍,今天先来一个简单的demo吧.代码在本地可以直接跑通.

添加依赖:

 <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-sql-kafka-0-10_2.11</artifactId>
            <version>${spark.version}</version>
        </dependency>

Structured Streaming将实时流抽象成一张无边界的表，输入的每一条数据当成输入表的一个新行，同时将流式计算的结果映射为另外一张表，完全以结构化的方式去操作流式数据。我们通过下面的代码看一下就明白了.

package spark

import org.apache.log4j.{Level, Logger}
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.streaming.OutputMode
import org.apache.spark.sql.functions._

/**
  * structredstreaming消费kafka的数据,实现exactly-once的语义;
  */
object StructuredStreaming {
  def main(args: Array[String]): Unit = {
    Logger.getLogger("org.apache.spark").se

了解本专栏

超级会员免费看

JasonLee实时计算

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
9
评论
【Spark实战系列】structuredstreaming 消费 kafka 数据实现简单的 wordcount

最近也是有很多同学问我,StructuredStreaming结合kafka的使用,我简单的写了一个wordcount的demo,后续会有更加具体和详细的介绍,今天先来一个简单的demo吧.代码在本地可以直接跑通.添加依赖: <dependency> <groupId>org.apache.spark</groupId> ...
复制链接

扫一扫