sparkStreaming 处理kafka数据积压问题

最新推荐文章于 2023-05-07 14:43:45 发布

Crane日拱一卒

最新推荐文章于 2023-05-07 14:43:45 发布

阅读量694

点赞数

文章标签： kafka spark big data

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44059731/article/details/120760986

版权

使用SparkStreaming集成kafka时有几个比较重要的参数：

spark.streaming.stopGracefullyOnShutdown （true / false）默认fasle
确保在kill任务时，能够处理完最后一批数据，再关闭程序，不会发生强制kill导致数据处理中断，没处理完的数据丢失

spark.streaming.backpressure.enabled （true / false）默认false
开启后spark自动根据系统负载选择最优消费速率

spark.streaming.backpressure.initialRate （整数）
默认直接读取所有在（2）开启的情况下，限制第一次批处理应该消费的数据，因为程序冷启动队列里面有大量积压，防止第一次全部读取，造成系统阻塞

spark.streaming.kafka.maxRatePerPartition （整数）
默认直接读取所有限制每秒每个消费线程读取每个kafka分区最大的数据量

1 因为首次启动JOB的时候，由于冷启动会造成内存使用太大，为了防止这种情况出现，限制首次处理的数据量

spark.streaming.backpressure.initialRate=10000

2 streaming启动后处理kafka中积压的数据且越来越多，积压时间越来越长，为防止executor OOM

spark.streaming.backpressure.enabled=true

开启后spark自动根据系统负载选择最优消费速率

Crane日拱一卒

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
sparkStreaming 处理kafka数据积压问题

使用SparkStreaming集成kafka时有几个比较重要的参数：spark.streaming.stopGracefullyOnShutdown （true / false）默认fasle确保在kill任务时，能够处理完最后一批数据，再关闭程序，不会发生强制kill导致数据处理中断，没处理完的数据丢失spark.streaming.backpressure.enabled （true / false）默认false开启后spark自动根据系统负载选择最优消费速率spark.str..
复制链接

扫一扫

Crane日拱一卒 CSDN认证博客专家 CSDN认证企业博客

码龄6年

14: 原创

81万+: 周排名

190万+: 总排名

1万+: 访问

: 等级

150: 积分

2: 粉丝

6: 获赞

2: 评论

11: 收藏

私信

关注

热门文章

最新评论

bigdata URL
CSDN-Ada助手: 恭喜您第14篇博客的发布！标题“bigdata URL”非常引人注目，大数据在URL领域的应用一定会引起许多读者的兴趣。您的持续创作展示了您对这个领域的热情和专业知识。希望您能继续分享更多关于大数据和URL的深入见解，因为我相信这将为读者们带来更多的启发和收获。或许，下一步您可以探讨一些实际案例，展示大数据在URL方面的具体应用，这将使您的博客更加具有实践性和可操作性。再次恭喜您，期待您更多精彩的创作！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。