本例使用Spark Streaming实现一个完整的按批次累加的实时单词计数程序。数据源从Netcat服务器中获取(关于Netcat的安装,此处不做讲解),实现步骤如下:
编写应用程序
1. 导入依赖库
在Spark项目“SparkDemo”的pom.xml中导入以下依赖库:
<!--Spark核心库-->
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.12</artifactId>
<version>3.2.1</version>
</dependency>
<!--Spark Streaming依赖库-->
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-streaming_2.12</artifactId>
<version>3.2.1</version>
</