SparkStreamingj集成Kafka的几个重要参数

最新推荐文章于 2023-06-26 22:38:04 发布

yjgithub

最新推荐文章于 2023-06-26 22:38:04 发布

阅读量406

点赞数

分类专栏： Spark Kafka

本文链接：https://blog.csdn.net/yjgithub/article/details/78829799

版权

Spark 同时被 2 个专栏收录

22 篇文章 3 订阅

订阅专栏

Kafka

3 篇文章 0 订阅

订阅专栏

sparkstreaming集成kafka时的maven的pom依赖：

<dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming-kafka-0-8_2.11</artifactId>
            <version>0.8.2.1/version>
</dependency>

使用SparkStreaming集成kafka时有几个比较重要的参数：

spark.streaming.stopGracefullyOnShutdown （true / false）默认fasle
确保在kill任务时，能够处理完最后一批数据，再关闭程序，不会发生强制kill导致数据处理中断，没处理完的数据丢失
spark.streaming.backpressure.enabled （true / false）默认false
开启后spark自动根据系统负载选择最优消费速率
spark.streaming.backpressure.initialRate （整数）默认直接读取所有
在（2）开启的情况下，限制第一次批处理应该消费的数据，因为程序冷启动队列里面有大量积压，防止第一次全部读取，造成系统阻塞
spark.streaming.kafka.maxRatePerPartition （整数）默认直接读取所有
限制每秒每个消费线程读取每个kafka分区最大的数据量