SparkStreaming 集成Kafka详解

最新推荐文章于 2020-11-06 13:49:49 发布

wtzhm

最新推荐文章于 2020-11-06 13:49:49 发布

阅读量429

点赞数 1

分类专栏： sparkstream 文章标签： Spark Streaming集成kafka详解

本文链接：https://blog.csdn.net/wtzhm/article/details/85062243

版权

sparkstream 专栏收录该内容

8 篇文章 1 订阅

订阅专栏

SparkStreaming 集成Kafka详解

1.概述

SparkStream集成Kafa有两种方式，Receiver-based Approach与Direct Approach，在集成的时候得注意spark版本与kafka的版本是否兼容。

2.Receiver-based Approach

1）概述

此种方式使用的是recevier 接收数据，recevier使用的是the Kafka high-level consumer API，默认配置可能会丢失部分数据，使用Write Ahead Logs把日志文件写到文件系统中（hdfs),数据丢失可以从日志文件中恢复。

2）引入jar包

groupId = org.apache.spark
artifactId = spark-streaming-kafka-0-8_2.11
version = 2.1.1

3）编码

def main(args: Array[String]): Unit = {
        val conf = new SparkConf().setMaster("local[2]").setAppName("SparkStreamingBykafkaRecevier")
        val ssc = new StreamingContext(conf, Seconds(5))
        var topicsMap = Map[String, Int]("test20" -> 1)
        val dstream = KafkaUtils.createStream(ssc, "192.168.126.31:2181,192.168.126.32:2181,192.168.126.33:2181", "my_group_reciver", topicsMap)
        val lines = dstream.map(_._2)
        val wordcount = lines.flatMap(_.split(" ")).map(x=>(x,1)).reduceByKey(_+_).print()

        ssc.start()
        ssc.awaitTermination()
    }

4）测试

启动zookeeper: zkServer.sh start

启动kafka： kafka-server-start.sh -daemon $KAFKA_HOME/conf/server.properties

测试kafka集群是否可用

创建topic：

kafka-topics --create --zookeeper master:2181,slave1:2181,slave2:2181 --replication-factor 1 --partitions 1 --topics test20

查看topic：

kafka-topics --list --zookeeper master:2181,slave1:2181,slave2:2181

生产者生成消息：

kafka-console-producer.sh --broker-list master:9092 --topic test20

消费者消费消息：

kafka-console-consumer.sh --zookeeper master:2181,slave2:2181 --topics test20 --from begginning

本地运行项目：在集群生成者上输入数据，看运行控制台是否接收到数据

5）正式环境

 ./bin/spark-submit \
 --class com.zhm.sparkstreaming.kafka.SparkStreamingBykafkaRecevier \
 --master local[2] \
 --packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.1.1  \
 jar路径

3.Direct Approach (No Receivers)

1）概述

receiver-less “direct” approach 在spark1.3引入的，此种方式周期性的到kafka获取最新偏移量（offsets),Kafka’s simple consumer API 从偏移量中获取批次。

2)导入包

 groupId = org.apache.spark
 artifactId = spark-streaming-kafka-0-8_2.11
 version = 2.1.1