- 案例需求:
通过SparkStreaming从Kafka读取数据,并将读取过来的数据做简单计算(WordCount),最终打印到控制台。
- 准备工作
1). 使用IDEA工具创建Maven项目,并导入如下依赖
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-streaming-kafka-0-8_2.11</artifactId>
<version>2.1.1</version>
</dependency>
<dependency>
<groupId>org.apache.kafka</groupId>
<artifactId>kafka-clients</artifactId>
<version>0.11.0.2</version>
</dependency>
2). 确保虚拟机已安装配置Zookeeper和Kafka
3). 使用群起脚本命令启动Zookeeper和Kafka集群(群起脚本命令的编写请参考我的另一篇博文Zookeeper和Kafka的群起/群关脚本)
- 代码编写
package com.learn.streaming
import org.apache.spark.SparkConf
import org.apache.spark.storage.StorageLevel
import org.apache.spark.streaming.dstream.{
DStream, Recei

本文介绍如何使用SparkStreaming从Kafka读取数据,进行WordCount计算并打印结果。首先,确保安装配置了Zookeeper和Kafka,接着在Maven项目中引入相关依赖。启动Zookeeper和Kafka集群后,编写SparkStreaming代码。运行程序,通过虚拟机命令生产数据,观察控制台输出的词频统计结果。
最低0.47元/天 解锁文章

667

被折叠的 条评论
为什么被折叠?



