spark 参数调优11-Spark Streaming

本文介绍了Spark Streaming的参数调优,包括反压机制、数据接收速率、BlockInterval的设置,以及receiver的相关配置,如日志启用和优雅关闭选项,旨在优化流处理性能和故障恢复。
摘要由CSDN通过智能技术生成

spark参数调优系列 目录地址:

https://blog.csdn.net/zyzzxycj/article/details/81011540

 

11 Spark Streaming

spark.streaming.backpressure.enabled

反压,默认false,详细了解请移步https://blog.csdn.net/zyzzxycj/article/details/82385982

spark.streaming.backpressure.initialRate

当开启反压机制时,每个receiver在最初,能从每个batch接收的最大速率,默认not set。

spark.streaming.blockInterval

对于某个batch,receiver将其转化成数据的时间间隔,默认200ms,不建议调到小于50ms,不然处理数据的时间就会比申请线程的时间还小。

因此可以计算出Tasks=BatchInterval / BlockInterval

spark.streaming.receiver.maxRate

每个receiver接收的最大速率(每秒接收记录数),如果是<=0 则为无限,默认not set。

spark.streami

针对 Spark Streaming调优,有以下几个方面可以考虑: 1. 资源调优:增加 Executor 内存、调整 Executor 数量等。可以通过增加 Executor 内存来提高处理速度和容量,但需要注意不要超过可用内存的限制。同时,根据数据量和处理需求,调整 Executor 数量也可以提高并行处理能力。 2. 批处理大小调优:调整批处理的大小可以影响处理延迟和吞吐量。较小的批处理大小可以减小处理延迟,但也会增加任务调度和数据传输的开销。较大的批处理大小可以提高吞吐量,但会增加处理延迟。 3. 并行度调优:通过调整数据分区和并行度参数来平衡资源利用和任务执行效率。可以根据集群规模、数据分布等因素,合理设置并行度参数,以充分利用集群资源并提高任务并行度。 4. 网络传输调优:对于网络密集型应用,可以考虑调整网络传输相关的参数,如序列化机制、网络缓冲区大小等,以减少网络开销并提高性能。 5. 数据存储和缓存调优:合理使用持久化存储和缓存机制,如使用持久化存储来避免数据丢失,并使用适当的缓存策略来提高数据访问效率。 6. 数据缩与序列化调优:使用适当的数据缩和序列化机制可以减少网络传输和存储开销,提高性能。可以根据数据类型和传输场景选择合适的缩算法和序列化器。 7. 故障恢复和容错调优:合理设置容错机制,如开启 Spark Streaming 的容错功能,配置适当的检查点机制,以提高系统的故障恢复能力。 以上是一些常见的 Spark Streaming 调优方法,具体调优策略需要根据实际情况进行选择和调整。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值