Spark-Streaming整合kafka实战

最新推荐文章于 2023-12-28 12:33:33 发布

十有八九

最新推荐文章于 2023-12-28 12:33:33 发布

阅读量476

点赞数 1

分类专栏： spark 文章标签： streaming kafka

本文链接：https://blog.csdn.net/weixin_44694973/article/details/96452761

版权

本文介绍了如何使用KafkaUtils.createDstream方法在Spark Streaming中整合Kafka，强调了receiver的特性，如数据存储在executor中、WAL日志用于故障恢复。同时，指出了在系统异常重启后可能存在的数据重复处理问题，以及这种方式虽然高可靠但不能确保数据唯一处理。文章最后提到了官方推荐使用createDirectStream方法作为替代方案。

摘要由CSDN通过智能技术生成

kafka作为一个实时的分布式消息队列，实时的生产和消费消息，
这里我们可以利用SparkStreaming实时计算框架实时地读取kafka中的数据然后进行计算。
在spark1.3版本后，kafkaUtils里面提供了两个创建dstream的方法，
一种为KafkaUtils.createDstream，另一种为KafkaUtils.createDirectStream

KafkaUtils.createDstream方式
构造函数为KafkaUtils.createDstream(ssc, [zk], [consumer group id], [per-topic,partitions] ) 使用了receivers来接收数据，利用的是Kafka高层次的消费者api，对于所有的receivers接收到的数据将会保存在Spark executors中，然后通过Spark Streaming启动job来处理这些数据，默认会丢失，可启用WAL日志，它同步将接受到数据保存到分布式文件系统上比如HDFS。所以数据在出错的情况下可以恢复出来。
在这里插入图片描述
A、创建一个receiver来对kafka进行定时拉取数据，ssc的rdd分区和kafka的topic分区不是一个概念，故如果增加特定主消费的线程数仅仅是增加一个receiver中消费topic的线程数，并不增加spark的并行处理数据数量。

B、对于不同的group和topic可以使用多个receivers创建不同的DStream

C、如果启用了WAL(spark.streaming.receiver.writeAheadLog.enable=true)
同时需要设置存储级别(默认StorageLevel.MEMORY_AND_DISK_SER_2)，
即KafkaUtils.createStream(….,StorageLevel.MEMORY_AND_DISK_SER)

KafkaUtils.createDstream实战

添加kafka的pom依赖

 <dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-streaming-kafka-0-8_2.11</artifactId>
    <version>2.1.0</version>
</dependency>

启动zookeeper集群
zkServer.sh start
启动kafka集群
kafka-server-start.sh /export/servers/kafka/config/server.properties
创建topic
kafka-topics.sh --create

最低0.47元/天解锁文章

十有八九

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark-Streaming整合kafka实战

kafka作为一个实时的分布式消息队列，实时的生产和消费消息，这里我们可以利用SparkStreaming实时计算框架实时地读取kafka中的数据然后进行计算。在spark1.3版本后，kafkaUtils里面提供了两个创建dstream的方法，一种为KafkaUtils.createDstream，另一种为KafkaUtils.createDirectStreamKafkaUtils....
复制链接

扫一扫

专栏目录