Flink Checkpoint 问题排查实用指南

最新推荐文章于 2021-08-18 18:00:23 发布

阿里云技术

最新推荐文章于 2021-08-18 18:00:23 发布

阅读量147

点赞数

文章标签：阿里云实时计算专项

本文链接：https://blog.csdn.net/weixin_43970890/article/details/100927698

版权

本文详细介绍了Flink中Checkpoint失败和慢的排查方法，包括理解Checkpoint流程、检查Checkpoint失败的两种情况（Checkpoint Decline和Checkpoint Expire）以及解决Checkpoint慢的各种可能原因，如源触发慢、增量Checkpoint、反压和数据倾斜、 Barrier对齐慢、主线程繁忙、同步和异步阶段慢等，提供了一整套实用的诊断思路和优化建议。

摘要由CSDN通过智能技术生成

在 Flink 中，状态可靠性保证由 Checkpoint 支持，当作业出现 failover 的情况下，Flink 会从最近成功的 Checkpoint 恢复。在实际情况中，我们可能会遇到 Checkpoint 失败，或者 Checkpoint 慢的情况，本文会统一聊一聊 Flink 中 Checkpoint 异常的情况（包括失败和慢），以及可能的原因和排查思路。

1. Checkpoint 流程简介

首先我们需要了解 Flink 中 Checkpoint 的整个流程是怎样的，在了解整个流程之后，我们才能在出问题的时候，更好的进行定位分析。

从上图我们可以知道，Flink 的 Checkpoint 包括如下几个部分：

JM trigger checkpoint
Source 收到 trigger checkpoint 的 PRC，自己开始做 snapshot，并往下游发送 barrier
下游接收 barrier（需要 barrier 都到齐才会开始做 checkpoint）
Task 开始同步阶段 snapshot
Task 开始异步阶段 snapshot
Task snapshot 完成，汇报给 JM

上面的任何一个步骤不成功，整个 checkpoint 都会失败。

2 Checkpoint 异常情况排查

2.1 Checkpoint 失败

可以在 Checkpoint 界面看到如下图所示，下图中 Checkpoint 10423 失败了。

点击 Checkpoint 10423 的详情，我们可以看到类系下图所示的表格（下图中将 operator 名字截取掉了）。

上图中我们看到三行，表示三个 operator，其中每一列的含义分别如下：

其中 Acknowledged 一列表示有多少个 subtask 对这个 Checkpoint 进行了 ack，从图中我们可以知道第三个 operator 总共有 5 个 subtask，但是只有 4 个进行了 ack；
第二列 Latest Acknowledgement 表示该 operator 的所有 subtask 最后 ack 的时间；
End to End Duration 表示整个 operator 的所有 subtask 中完成 snapshot 的最长时间；
State Size 表示当前 Checkpoint 的 state 大小 -- 主要这里如果是增量 checkpoint 的话，则表示增量大小；
Buffered During Alignment 表示在 barrier 对齐阶段积攒了多少数据，如果这个数据过大也间接表示对齐比较慢）；

Checkpoint 失败大致分为两种情况：Checkpoint Decline 和 Checkpoint Expire。

2.1.1 Checkpoint Decline

我们能从 jobmanager.log 中看到类似下面的日志
Decline checkpoint 10423 by task 0b60f08bf8984085b59f8d9bc74ce2e1 of job 85d268e6fbc19411185f7e4868a44178.

最低0.47元/天解锁文章

阿里云技术

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Flink Checkpoint 问题排查实用指南

在 Flink 中，状态可靠性保证由 Checkpoint 支持，当作业出现 failover 的情况下，Flink 会从最近成功的 Checkpoint 恢复。在实际情况中，我们可能会遇到 Checkpoint 失败，或者 Checkpoint 慢的情况，本文会统一聊一聊 Flink 中 Checkpoint 异常的情况（包括失败和慢），以及可能的原因和排查思路。1. Checkpoint ...
复制链接

扫一扫