详解Spark Streaming的Graceful Shutdown

最新推荐文章于 2025-03-03 11:57:20 发布

Mr-Bruce

最新推荐文章于 2025-03-03 11:57:20 发布

阅读量1.2w

点赞数 11

分类专栏：大数据系统 Spark 文章标签： Spark Streaming Graceful Shutdown Checkpoint 优雅停止

本文链接：https://blog.csdn.net/zwgdft/article/details/85849153

版权

本文详细探讨了Spark Streaming程序中Graceful Shutdown的重要性，解释了为何需要优雅停止，如何触发这一过程，以及其执行流程。在业务对数据准确性要求高的情况下，Graceful Shutdown能避免数据丢失，通过关闭Receiver、处理完已接收数据后再退出，确保Checkpoint安全删除。文章还揭示了Graceful Shutdown可能存在的Downtime问题和潜在的源码定制风险，并提到了Hadoop版本对Shutdown Hook的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

对于Spark Streaming程序而言，一旦运行起来后，就会不断的从数据流中消费数据，按照Batch间隔生成BatchRDD进行处理，即处于7*24小时运行的状态，除非我们主动将其停止或者遇到异常退出。所谓Graceful Shutdown，即优雅的将Spark Streaming程序停止，本文将重点探讨三点（写作背景：Spark 2.2）：

为什么需要Graceful Shutdown？
如何触发Graceful Shutdown？
Graceful Shutdown过程是怎样的？

为什么需要Graceful Shutdown

考虑使用Graceful Shutdown的前提是，业务对数据的准确性要求很高，不允许数据丢失。如果这个前提不成立，其实可以不使用Graceful Shutdown，直接采用"yarn -kill application_id"即可。
Spark Streaming是基于micro-batch机制工作的，程序在运行中，由Receiver负责从Stream中不断读取数据（比如1秒读取一次），当Batch Interval到达时，会将收下来的数据组合成一个新的BatchRDD来处理。在这个过程中，如果程序出现异常退出，可能会导致正在处理的BatchRDD中的数据或者已经接收下来但是还没有生成BatchRDD的数据丢失。为了避免数据丢失，Spark Streaming引入了Checkpoint和WAL机制，将程序运行的上下文信息和接收的数据持久化到磁盘，从而可以在异常退出后能恢复到上次继续处理。

Checkpoint机制保证了数据不丢失，但是为程序更新带来了隐患。因为保存下来的数据中包含了当前程序运行的上下文信息，将程序停止、更换新的代码、再重新启动起来时，轻则更新的代码没有生效，重则程序报错无法运行。因此，更新Spark Streaming程序代码时，必须将Checkpoint清除掉，可是这样又引入了数据丢失的问题。
Graceful Shutdown便是为解决这样的问题而生。通过Graceful Shutdown，首先将Reciever关闭，不再接收新数据，然后将已经收下来的数据都处理完，最后再退出。这样一来，Checkpoint就可以被安全删除了。